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说 明 


e 本 仓库 为 《编写 高 质量 代码 改善 Python 程序 的 91 个 建议 》 形 成 Gitbook 的 代码 
。 整理 成 GitBook 形式 了 


编写 高 质量 代码 改善 Python 程序 的 91 个 建 
仅 


第 1 草 引 论 


建议 1 : 理解 Pythonic 概念 


对 于 Pythonic 的 概念 ， 有 一 个 更 具体 的 指南 ，《The Zen of Python》 (Python 之 禅 ) 。 有 
几 点 非常 深入 人 心 : 


@ 美 胜 五 ， 显 胜 隐 ， 简 胜 杂 ， 杂 胜 乱 ， 平 胜 陆 ， 足 胜 密 。 

e 找到 简单 问题 的 一 个 方法 ， 最 好 是 唯一 的 方法 (正确 的 解决 之 道 ) 

。 难以 解释 的 实现 ， 源 自 不 好 的 注意 ; 如 果 有 非常 棒 的 注意 ， 它 的 实现 肯定 易于 理解 
Pythonic 的 定义 


遵循 Pythonic 的 定义 ， 看 起 来 就 像 是 伪 代 码 。 其 实 ， 所 有 的 伪 代 码 都 可 以 轻易 地 转换 为 可 执 
行 的 Python 代码 。 


Pythonic 也 许可 以 定义 为 : 充分 体现 Python 自身 特色 的 代码 风格 。 


代码 风格 


在 语法 上 ， 代 码 风 格 要 充分 表现 Python 自身 特色 。 比 如 说 两 个 变量 交换 ， 利 用 Python 的 
packaging/unpackaging 机 制 ，Pythonic 的 代码 只 需要 以 下 一 行 : 


Qi 三 出 口 尖 3 司 “” 


还 有 ， 在 遍历 一 个 容器 的 时 候 : 


om On aast. 
do_sth_with(i) 


灵活 地 使 用 迁 代 器 是 一 种 Python 风格 。 比 如 说 ， 需 要 安全 地 关闭 文件 描述 符 ， 可 以 使 用 以 下 
with 语句 : 


with open(path, 'r') as f: 
do_sth_with(f) 


应 当 追 求 的 是 充分 利用 Python 语法 ， 但 不 应 当 过 分 地 使 用 奇 技 淫 巧 ， 比 如 利用 Python 的 
Slice 语法 ， 可 以 写 出 如 下 代码 : 


a = 2 SEE 
CE= abcdeT 和 
print(a[::-1]) 
print(c[::-1]) 


实际 上 ， 这 个 时 候 更 好 地 体现 Pythonic 的 代码 时 充分 利用 Python 库 里 的 reversed() 函数 
的 代码 。 


print list(reversed(a)) 
print list(reversed(c)) 


标准 库 


写 Pythonic 程序 需要 对 标准 库 有 充分 的 理解 ， 特 别 是 内 置 函 数 和 内 置 数据 类 型 。 比 如 ， 对 于 
字符 串 格式 化 ， 推 荐 这 样 写 : 


print '(greet) from (language).'.format(greet = "Hello world", language = "Python ' ) 


str.format() 方法 非常 清晰 地 表明 了 这 条 语句 的 意图 ， 而 且 模板 的 使 用 也 减少 了 许多 不 必要 
的 字符 ， 使 可 读 性 得 到 了 很 大 的 提升 。 


Pythonic 的 库 或 框架 


编写 应 用 程序 的 时 候 的 要 求 会 更 高 一 些 。 因 为 编写 应 用 程序 一 般 需 要 团队 合作 ， 那 么 可 能 你 
编写 的 那 一 部 分 正好 是 团队 的 另 一 成 员 需 要 调用 的 接口 ， 换 言 之 ， 你 可 能 正在 编写 库 或 框 


架 。 


程序 员 利 用 Pythonic 的 库 或 框架 能 更 加 容易 、 更 加 自然 地 完成 任务 。 如 果 用 Python 编写 的 
库 或 框架 迫使 程序 员 编 写 累 玖 的 或 不 推荐 的 代码 ， 那 么 可 以 说 它 并 不 Pythonic。 现 在 业内 通 
常 认为 Flask 这 个 框架 是 比较 Pythonic 的 ， 它 的 一 个 Hello world 级 别 用 例如 下 : 


from flask import Flask 
app = Flask(__name ) 
@app.route('/') 
defineliuo 全 

return “Hello world!” 


at name == ma 


app.run() 





一 个 Pythonic 的 框架 不 会 对 已 经 通过 惯用 法 完成 的 东西 重复 发 明 " 轮 子 "， 而 且 它 也 遵循 常用 
的 Python 惯例 。 创 建 Pythonic 的 框架 及 其 困难 ， 现 在 认为 像 generators 之 类 的 特性 尤为 
Pythonic 。 
另 一 个 有 关 新 趋势 的 例子 是 ，Python 的 包 和 模块 结构 日 益 规 范 化 。 现 在 的 库 或 框架 跟随 了 一 
下 潮流 : 
e。 包 和 模块 的 命名 采用 小 写 、 单 数 形式 ， 而 且 短 小 

包 通常 仅 作为 命名 空间 ， 如 只 包含 空 的 _init .py 文件 。 


建议 2 : 编写 Pythonic 代码 


e@ 要 避免 劣化 代码 ， 比 如 不 合适 的 变量 命名 等 
o 避免 只 用 大 小 写 来 区 分 不 同 的 对 象 
o 避免 使 用 容易 引起 混淆 的 名 称 ， 包 括 : 


。 重复 使 用 已 经 存在 于 上 下 文中 的 变量 名 来 表示 不 同 的 类 型 
到 误 用 了 内 建 名 称 来 表示 其 他 含义 的 名 称 而 使 之 在 当前 命名 空间 被 屏蔽 

没有 构建 新 的 数据 类 型 的 情况 下 使 用 类 似 于 element、1list、dict 等 作为 变量 名 
使 用 0 (字母 O 小 写 的 形式 ， 容 易 与 数值 0 混淆) 、1 (字母 L 小 写 的 形式 ， 容 
易 与 数字 1 混淆 ) 等 作为 变量 名 

o 以 下 两 个 示例 ， 示 例 二 比 示例 一 好 : 


def funA(List, num): 
for element in list: 
if num == element: 
eucmaDuUe 
else: 
pass 


下 例 ， 
def find_num(searchList，num) : 
for listValue in searchList: 
If num == listValue: 
eucmanuUe 
else: 
pass 


o 不 要 害怕 过 长 的 变量 名 ， 比 如 person_info 比 pi 的 可 读 性 要 强 得 多 。 


。 深入 认识 Python 有 助 于 编写 Pythonic 代码 


全 面 掌握 Python 提供 给 我 们 的 所 有 特性 ， 包 括 语言 特性 和 库 特 性 。 其 中 最 好 的 学 习 
方式 应 该 是 通读 官方 手册 中 的 Language Reference 和 Library Reference ° 

一 方面 Python 语言 推荐 使 用 大 量 的 惯用 法 来 完成 任务 ; 另 一 方面 ， 语 言 的 进化 又 赵 
于 更 好 地 支持 惯用 法 。 

深入 学 习 业 界 公 认 的 比较 Pythonic 的 代码 ， 比 如 Flask、gevent 和 requests 等 。 而 
使 用 Python 的 标准 库 httplib2 时 ， 代 码 就 非常 复杂 ， 程 序 员 需要 了 解 相 当 多 的 关于 
HTTP 协议 和 Basic Auth 的 知识 才能 编程 。 

最 后 ， 也 可 以 尝试 利用 工具 达到 事半功倍 的 效果 。 比 如 风格 检查 程序 PEP8。 其 实 一 
开始 PEP 8 是 一 篇 关于 Python 编码 风格 的 指南 ， 它 提出 了 保持 代码 一 致 性 的 细节 
要 求 。 它 至 少 包 括 了 对 代码 布局 、 注 释 、 命 名 规范 等 方面 的 要 求 ， 在 代码 中 遵循 这 
些 原 则 ， 有 利于 编写 Pythonic 的 代码 。 


@ 应 用 程序 PEP 8 可 以 用 来 进行 检测 ， 它 是 使 用 Python 开发 的 ， 安 装 的 方 
法 : pip install -U pep8 


@ 然后 即 可 简单 地 用 它 检测 一 下 自己 的 代码 : pep8 --first optparse.py ， 如 果 嫌 
报表 不 够 细致 ， 可 以 考虑 使 用 --show-source 参数 让 PEP8 显示 每 一 个 错误 和 
警告 对 应 的 代码 。 


@ 比如 ， 对 代码 的 换行 ， 不 好 的 风格 如 下 : 


if foo == "blah": do_blah_thing() 
do_one(); do_two(); do_three() 


而 Pythonic 的 风格 则 是 这 样 的 : 


if foo == "blah": 
do_blah_thing() 

do_one() 

do_two() 

do_three() 


”PEP8 程序 ， 其 至 还 可 以 给 出 "正确 ”的 写法 ， 除 了 针对 某 一 个 源 代码 文件 以 外 ， 
还 可 以 直接 检测 一 个 项 目的 质量 ， 并 通过 直观 的 报表 给 出 报告 。 


mm PEP8 有 优秀 的 播 件 架构 ， 可 以 方便 地 实现 特定 风格 的 检测 ; 它 生 成 的 报告 易 
于 处 理 ， 可 以 很 方便 地 与 编辑 器 集成 。 


四 “PEP8 不 是 唯一 的 编程 规范 。 有 些 公司 制定 的 编程 规范 也 非常 有 参考 意义 ， 比 
如 Google Python Style Guide 。 同 样 ， PEP8 也 不 是 唯一 的 风格 检测 程序 ， 类 
似 的 应 用 还 有 Pychecker ~、 Pylint ~ Pyflakes 等 其 中 Pychecker 是 Google 


Python Style Guide 推荐 的 工具 ; pylint 因 可 以 非常 方便 地 通过 编辑 配置 文件 
实现 公司 或 团队 的 风格 检测 而 受到 许多 人 的 青睐 ; Pyflakes 则 因为 多 于 集成 到 
vim 中 ， 所 以 使 用 的 人 也 非常 多 


建议 3 : 理解 Python 与 C 语言 的 不 同 之 处 


Python 底层 是 用 C 语言 实现 的 ， 但 切忌 用 C 语言 的 思维 和 风格 来 编写 Python 代码 。 
1.“ 缩 进 " 与 “人 


避免 缩 进 带 来 的 困扰 的 方法 之 一 就 是 养 成 良好 的 习惯 ， 统 一 缩 进 风格 ， 不 要 混用 Tab 键 
和 空格 。 


多 砚 / 


C 语言 中 单 引号 代表 一 个 字符 ， 它 实际 对 应 于 编译 器 所 采用 的 字符 集中 的 一 个 整数 值 。 
而 双 引 号 则 表示 字符 串 ， 默 认 以 \0' 结尾 。 


3. 三 元 操作 符 ”?:“ 
c?X:Y 在 Python 中 等 价 的 形式 为 x if Cc else Y 
4. ‘switch...case 


Python 中 可 以 使 用 多 种 方式 来 实现 switch...case 比如 下 面 这 一 种 : 


switch(n) { 

case 0: 
Dranmef(e o> 
break; 

Casenl: 
Bimtf (Gl 
break; 

Case 
Bn (02 
break; 

default: 
EEC 


break; 


detehi(eas 
return { 
(Ol Mo 
1 
2 
-get(n, ?77 ) 


建议 4: 在 代码 中 适当 添加 注释 


Python 中 有 3 种 形式 的 代码 注释 : 块 注释 、 行 注释 以 及 文档 注释 (docstring) 。 这 3 种 形式 
的 惯用 法 大 概 有 如 下 几 种 : 


使 用 块 或 者 行 注释 的 时 候 仅 注释 那些 复杂 的 操作 、 算 法 ， 还 有 可 能 别人 难以 理解 的 技巧 

或 者 不 够 一 目 了 然 的 代码 

注释 和 代码 隔 开 一 定 的 距离 ， 同 时 在 块 注释 之 后 最 好 多 留 几 行 空白 再 写 代码 。 

给 外 部 可 访问 的 函数 和 方法 添加 文档 注释 。 注 释 要 清楚 地 描述 方法 的 功能 ， 并 对 参数 、 

返回 值 以 及 可 能 发 生 的 异常 进行 说 明 ， 使 得 外 部 调用 它 的 人 员 仅 仅 看 docstring 就 能 正确 

使 用 。 (使 用 Ey 进行 注释 ) 

推荐 在 头 文件 中 包含 copyright 申明 、 模 块 档 述 等 ， 如 有 必要 ， 可 以 考虑 加 入 作者 信息 以 
变更 记录 

需要 避免 的 注释 : 

o 代码 即 注 释 (不 写 注释 ) 

o 注释 与 代码 重复 

@ 利用 注释 语法 快速 删除 代码 。 对 于 不 再 需要 的 代码 ， 应 该 将 其 删除 ， 而 不 是 将 其 注 
释 掉 。 即 使 担心 以 后 还 会 用 到 ， 版 本 控制 工具 也 可 以 让 你 轻松 找 回 被 删除 的 代码 。 

o 代码 不 断 更 新 而 注释 却 没有 更 新 

o 注释 比 代码 本 身 还 复杂 繁琐 

o 将 别处 的 注释 和 代码 一 起 拷贝 过 来 ， 但 上 下 文 的 变更 导致 注释 与 代码 不 同步 

o 将 注释 当 作 自己 的 娱乐 空间 从 而 留 下 个 性 特征 


建议 5 : 通过 适当 添加 空 行使 代码 布局 更 为 优雅 、 合 理 


Python 代码 布局 有 一 些 基 本 规则 可 以 遵循 : 


在 一 组 代码 表达 完 一 个 完整 的 思路 之 后 ， 应 该 用 空白 行进 行 间隔 。 如 每 个 函数 之 间 ， 导 
入 声明 、 变 量 赋值 等 。 通 俗 点 讲 就 是 不 要 在 一 段 代 码 中 说 明 几 件 事 。 推 荐 在 函数 定义 或 
者 类 定义 之 间 空 两 行 ， 在 类 定义 与 第 一 个 方法 之 间 ， 或 者 需要 进行 语义 分 割 的 地 方 空 一 


尽量 保持 上 下 文 语义 的 易 理 解 性 

避免 过 长 的 代码 行 ， 每 行 最 好 不 要 超过 80 个 字符 。 超 过 的 部 分 可 以 用 圆 括号 、 方 括号 和 
花 括 号 等 进行 行 连 接 ， 并 且 保 持 行 连接 的 元 素 重 直 对 齐 。 

不 要 为 了 保持 水 平 对 齐 而 使 用 多 余 的 空格 ， 其 实 使 阅读 者 尽 可 能 容易 地 理解 代码 所 要 表 
达 的 意义 更 重要 。 

空格 的 使 用 要 能 够 在 需要 强调 的 时 候 警 示 读者 ， 在 中 松 关系 的 实体 间 起 到 分 隔 作 用 ， 而 
在 具有 紧密 关系 的 时 候 不 要 使 用 空格 。 具 体 细 节 如 下 : 

o 二 元 运算 符 〈 赋 值 、 比 较 、 布 尔 运算 的 左右 两 边 应 该 有 空格 ) 

o 去 号 和 分 号 前 不 要 使 用 空格 

o 函数 名 和 左 括 号 之 间 、 序 列 索 引 操作 时 序列 名 和 [之 间 不 需要 空格 ， 函 数 的 默认 参 


数 两 侧 不 需要 空格 
o 强调 前 面 的 操作 符 的 时 候 使 用 空格 


建议 6 :编写 函数 的 几 个 原则 


函数 能 够 带 来 最 大 化 的 代码 重用 和 最 小 化 的 代码 宛 余 。 精 心 设计 的 函数 不 仅 可 以 提高 程序 的 
健壮 性 ， 还 可 以 增强 可 读 性 、 减 少 维护 成 本 。 


一 般 来 说 函数 设计 有 以 下 基本 原则 可 以 参考 : 


原则 1 : 函数 设计 要 尽量 短小 ， 获 套 层次 不 宜 过 深 。 最 好 能 控制 在 3 层 以 内 。 

原则 2 : 函数 申明 应 该 做 到 人 合理、 简单、 易于 使 用 。 参 数 个 数 不 宜 太 多 。 

原则 3 : 函数 参数 设计 应 该 考虑 向 下 兼容 。 比 如 相同 功能 的 函数 不 同 版 本 的 实现 ， 唯 一 不 
同 的 是 在 更 高 级 的 版 本 中 添加 了 参数 导致 程序 中 函数 调用 的 接口 发 生 了 改变 。 这 并 不 是 
最 佳 设 计 ， 更 好 的 方法 是 通过 加 入 默认 参数 来 避免 这 种 退化 ， 做 到 向 下 兼容 。 

原则 4 : 一 个 函数 只 做 一 件 事 ， 尽 量 保证 函数 语句 粒度 的 一 致 性 。 

原则 5 : 不 要 在 函数 中 定义 可 变 对 象 作 为 默认 值 

原则 6 : 使 用 异常 蔡 换 返回 错误 

原则 7 : 保证 通过 单元 测试 


建议 7 : 将 常量 集中 到 一 个 文件 


Python 的 内 建 命 名 空间 是 支持 一 小 部 分 常量 的 ， 例 如 True、False、None 等 ， 只 是 Python 
没有 提供 定义 常量 的 直接 方式 而 已 。 


在 Python 中 应 该 如 何 使 用 常量 ? 一 般 来 说 有 以 下 两 种 方式 : 


命名 风格 来 提醒 使 用 者 该 变量 代表 的 意义 为 常量 ， 如 常量 名 所 有 字母 大 写 ， 用 下 划 


线 连接 各 个 单词 


这 
通过 自 定义 的 类 实现 常量 功能 。 这 要 求 符合 "命名 全 部 为 大 写 “ 和 ” 值 一 旦 绑 定 便 不 可 再 修 
改 “ 这 两 个 条 件 。 下 面 是 一 种 较为 常见 的 解决 办 法 ， 它 通过 对 常量 对 应 的 值 进行 修改 时 或 
者 命名 不 符合 规范 时 抛 出 异常 来 满足 以 上 常量 的 两 个 条 件 。 


Bllasssconst 
Class ConstError(TypeError ) : 
pass 
class ConstCaseError(ConstError): 
pass 


def setattr>/{(self, name, Value): 
If self. dict .has_key(nanme): 
raise self.ConstError, "Can't change const.{}".format(name) 
If not name.isupper(): 
raise self.ConstCaseError, "const name {} is not all uppercase" ,format 
(name ) 
self._ dict [name] = value 


import sys 
sys.modules[ name ] = _const() 


如 果 上 面 的 代码 对 应 的 模块 名 为 const， 使 用 时 候 只 需要 import const， 便 可 以 直接 定义 
常量 了 ， 如 以 下 代码 : 


import const 
const.COMPANY = "IBM" 


e 无 论 采 用 哪 一 种 方式 来 实现 常量 ， 都 提倡 将 常量 集中 到 一 个 文件 中 ， 因 为 这 样 有 利于 维 
护 ， 一 旦 需要 修改 常量 的 值 ， 可 以 集中 统一 而 不 是 逐个 文件 去 检查 。 采 用 第 二 种 方式 实 
现 的 常量 可 以 这 么 做 : 将 存放 常量 的 文件 命名 为 constant.py ， 并 在 其 中 定义 一 系列 的 


常量 。 


class _const : 


[| 


import sys 

sys.modules[ name ] = _const() 
import const 

const.MY_CONSTANT = 1 

const .MY_SECOND_CONSTANT = 2 


当 在 其 他 模块 中 引用 这 些 常量 时 ， 按 照 如 下 方式 进行 即 可 : 


from constant Import const 
print(const.MY_SECOND_CONSTANT) 


1 章 引 论 
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第 2 章 编程 惯用 法 


建议 8: 利 用 assert 语 名 来 发 现 问题 


断言 (assert) 在 很 多 语言 中 都 存在 ， 它 主要 为 调试 程序 服务 ， 能 够 快速 方便 地 检查 程序 的 异 
常 或 者 发 现 不 恰当 的 输入 等 ， 可 防止 意 想 不 到 的 情况 出 现 。 


其 基本 语法 如 下 


assert expressioni, ["," expression2] ， 使 用 的 例子 如 下 


X77V = 1] 2 
assert x == y, "not equal" 


在 执行 过 程 中 它 实际 相当 于 如 下 代码 : 


X77V= 1 2 
If _ debug_ _ and not x == y: 
raise AssertionError("not equals") 


对 Python 中 使 用 断言 需要 说 明 如 下 : 


e。 debug ”的 值 默 认 设 置 为 True， 且 是 只 读 的 ， 在 Python 2.7 中 还 无 法 修改 该 值 。 

。 断言 是 有 代价 的 ， 它 会 对 性 能 产生 一 定 的 影响 ， 对 于 编译 型 的 语言 这 也 许 并 不 那么 重 
要 ， 因 为 断言 只 在 调试 模式 下 启用 。 但 Python 并 没有 严格 定义 调试 和 发 布 模式 之 间 的 区 
别 ， 通 常 禁用 断言 的 方法 是 在 运行 脚本 的 时 候 加 上 -0 标志 ， 这 种 方式 带 来 的 影响 是 它 
并 不 优化 字 节 码 ， 而 是 忽略 与 断言 相关 的 语句 。 


断言 实际 是 被 设计 用 来 捕获 用 户 所 定义 的 约束 的 ， 而 不 是 用 来 捕获 程序 本 身 错误 的 ， 因 此 使 
用 断言 需要 注意 以 下 几 点 : 


e 不 要 滥用 。 若 由 于 断言 引发 了 异常 ， 通 常 代表 程序 中 存在 bug。 因 此 断言 应 该 使 用 在 正 
常 逻辑 不 可 到 达 的 地 方 或 正常 情况 下 总 是 为 丨 的 场合 。 


。 如 果 Python 本 身 的 异常 能 够 处 理 就 不 要 再 使 用 断言 。 如 对 于 类 似 于 数组 越界 、 类 型 不 匹 
配 、 除 数 为 0 之 类 的 错误 ， 不 建议 使 用 断言 来 进行 处 理 。 


# 下 面 的 断言 是 多 余 的 ， 如 果 类 型 不 匹配 本 身 就 会 抛 出 异常 
def stradd(Cxaay 并 

assert isinstance(x, basestring) 

assert isinstance(y, basestring) 

meturne xX ey 


。 不 要 使 用 断言 来 检查 用 户 的 输入 。 如 对 于 一 个 数字 类 型 ， 如 果 根 据 用 户 的 设计 该 值 的 范 
围 应 该 是 2~10， 较 好 的 做 法 是 使 用 条 件 判断 ， 并 在 不 符合 条 件 的 时 候 输 出 错误 提示 信 
自 oo 


。 在 函数 调用 后 ， 当 需要 确认 返回 值 是 否 合理 时 可 以 使 用 断言 


e@ 当 条 件 是 业务 逻辑 继续 下 去 的 先决 条 件 时 可 以 使 用 断言 ， 比 如 list1 和 其 副本 
list2 A 如 使 用 了 浅 拷贝 而 list1 中 含有 可 变 对 象 等 ， 就 
可 以 使 用 断言 来 判断 这 两 者 的 关系 。 


建议 9 : 数据 交换 值 的 时 候 不 推荐 使 用 中 间 变 量 


交换 两 个 变量 的 值 ， 熟 悉 的 代码 如 下 : 


temp = X 
X = y 
y = temp 


实际 上 ， 在 Python 中 有 Pythonic 的 实现 方式 ， 代 码 如 下 : 
X, Y = Yy, Xx 


上 面 的 实现 方式 不 需要 借助 任何 中 间 变 量 并 且 能 够 获取 更 好 的 性 能 (可 以 用 timeit 测 
试 ) 。 


之 所 以 更 优 ， 是 因为 Python 表达 式 计算 的 顺序 。 一 般 情 况 下 Python 表达 式 的 计算 顺序 是 从 
左 到 右 ， 但 遇 到 表达 式 赋值 的 时 候 表达 式 右 边 的 操作 数 先 于 左边 的 操作 数 计 算 ， 其 在 内 存 中 
执行 的 顺序 如 下 : 


。 先 计算 右边 的 表达 式 W X， 因 此 先 在 内 存 中 创建 元 组 (y, xXx) ， 其 标示 符合 值 分 别 为 y、x 
及 其 对 应 的 值 ， 其 中 y 和 X 是 在 初始 化 时 已 经 存在 于 内 存 中 的 对 象 。 

e 计算 表达 式 左 边 的 值 并 进行 赋值 ， 元 组 被 依次 分 配给 左边 的 标示 符 ， 通 过 解压 缩 
(unpacking) ， 元 组 第 一 标识 符 (为 y) 分 配给 左边 第 一 个 元 素 (此 时 为 x) ， 元 组 第 
二 个 标识 符 (为 x) 分 配给 第 二 个 元 素 (为 y) ， 从 而 达到 实现 X、y 值 交换 的 目的 。 


yon 的 字 节 a 的 中 间 语 言 ， 但 是 一 个 字 节 码 指令 并 不 是 对 应 一 个 机 器 
指令 。 通 过 dis 模块 可 以 进行 分 析 : 


Import dis 

def Swap1( ) : 
XIVy 生 三 站 2 省 二 
XV 


def swap2(): 
XY = 233 
temp = x 
X= 
y = temp 


dis.dis(swap1) 
dis.dis(swap2) 


通过 字 节 码 可 以 看 出 ，sWpa1 对 应 的 字 节 码 中 有 2 个 LOAD_FAST 指令 、2 个 STORE_FAST 指 
令 和 1 个 RoT Two 指令 ,而 sSWap2 函数 对 应 的 共生 成 了 3 个 LoAD_FAST 指令 和 3 个 
STORE_FAST 指令 。 而 指令 RoT_ Two 的 主要 作用 是 交换 两 个 栈 的 最 顶层 元 素 ， 它 比 执行 一 个 
LOAD_FAST + STORE_FAST 指令 更 快 。 


建议 10 : 充分 利用 Lazy evaluation 的 特性 


Lazy evaluation 常 被 译 为 “延迟 计算 "或 “惰性 计算 ”， 指 的 是 仅仅 在 丨 正 需要 执行 的 时 候 才 计 算 
表达 式 的 值 。 充 分 利用 Lazy evaluation 的 特性 带 来 的 好 处 主要 体现 在 以 下 两 个 方面 : 


。 避免 不 必要 的 计算 ， 带 来 性 能 上 的 提升 。 对 于 Python 中 的 条 件 表达 式 if x and y ， 在 
Xx 为 false 的 情况 下 y 表达 式 的 值 将 不 再 计算 。 而 对 于 if x or y ， 当 X 的 值 为 true 的 
时 候 将 直接 返回 ， 不 再 计算 y 的 值 。 因 此 编程 中 应 该 充分 利用 该 特性 。 例 如 : 


from time :Import time 
t = time() 
abbreviations = cho eno ue ete flLol 
for i in xrange(100000): 
om wn (Mr ha SC AS 让 
if w in abbreviations and w[-1]=='.': # 这 句 性 能 较 差 





# If w[-1] == '.' and w in abbreviations: # 性 能 好 
pass 
print time() - t 


如 果 使 用 注释 的 那 一 条 让 语 句 ， 运 行 的 时 间 大 约会 节省 10%。 总结 来 说 ， 对 于 or 条 件 表 
达 式 应 该 将 值 为 真 可 能 性 较 高 的 变量 写 在 or 的 前 面 ， 而 and 则 应 该 推 后 。 

。 节省 空间 ， 使 得 无 限 循环 的 数据 结构 成 为 可 能 。Python 中 最 典型 的 使 用 延迟 计算 的 例子 
就 是 生成 器 表达 式 了 。 比 如 斐 波 那 契 : 


defEfaubiE 
ab=0，1L 
while True: 
yield a 
a, b=b,a+b 
from itertools import islice 
print list(islice(fib(), 5)) 


建议 11 : 理解 枚 举 替代 实现 的 缺陷 


枚 举 最 经 典 的 例子 是 季节 和 星期 ， 它 能 够 以 更 接近 自然 语言 的 方式 来 表达 数据 ， 使 得 程序 的 
可 读 性 和 可 维护 性 大 大 提高 。 但 是 枚 举 类 型 在 Python 3.4 以 前 却 并 不 提供 。 人 们 充分 利用 
Python 的 动态 性 这 个 特征 ， 想 出 了 枚 举 的 各 种 蔡 代 实现 方式 : 


。 使 用 类 属性 


class Seasons : 
Spring, Summer, Autumn, Winter = 0, 1, 2, 3 


i 
或 者 可 以 简化 为 : 


Glassiaseasonsl 
Spring，Summer，Autumn，Winter = range(4) 


。 借助 函数 


def enum(*posarg, **keysarg): 
return type("Enum", (object,), dict(zip(posarg, xrange(len(posarg))), **keysar 


g)) 


Seasons = enum("Spring", "Summer", "Autumn", Winter=1) 


e 使 用 collections.namedtuple 


Seasons = namedtuple("Seasons", "Spring Summer Autumn Winter"). make(range(4)) 


显然 ， 这 些 替代 实现 有 其 不 合理 的 地 方 : 


e@ 人 允许 枚 举 值 重复 ， 比 如 在 collections.namedtuple 中 ， 使 得 枚 举 值 Spring 和 Autumn 相 
等 ， 却 不 会 提示 任何 错误 : seasons._replace(Spring = 2) 


@ 支持 无 意义 的 操作 ， 比 如 Seasons .Summer + Seasons.Autumn == Season.Winter 





实际 上 Python 2.7 以 后 的 版 本 还 有 另外 一 种 替代 选择 一 使 用 第 三 方 模块 Flufl.enum ， 它 
包含 两 种 枚 举 类 : 一 种 是 Enum ， 只 要 保证 枚 举 值 唯 一 即 可 ， 对 值 的 类 型 没 限制 ; 还 有 一 种 
是 IntEnum ， 其 枚 举 值 是 int 型 。 


from flufl.enum import Enum 
class Seasons(Enum): # 继承 自 Enum 定义 + 
Spring = "Spring" 
Summer = 2 
Autumn = 3 
Winter = 4 


Seasons = Enum("Seasons", "Spring Sumter Autumn Winter") 


flufl.enum 提供 了 members 属性， 可 以 对 枚 举 名称 进 行 迭 代 。 


for member In Seasons. members_ : 
print member 


可 以 直接 使 用 value 属性 获取 枚 举 元 素 的 值 ， 比 如 : 


print Seasons ,Summer .Value 


flufl.enum 不 支持 枚 举 元 素 的 比较 2 比如 不 支持 Seasons.Summer < Seasons.Autumn 


Python3.4 中 根据 PEP435 加 入 了 枚 举 Enum， 其 实现 主要 参考 flufl.enum ， 但 两 者 之 间 还 
是 存在 一 些 差别 ， 如 flufl,enum 允许 枚 举 继承 ， 而 Enum 仅 在 父 类 没有 任何 枚 举 成 员 的 时 
候 才 允许 继承 等 。 如 果 要 在 Python3.4 之 前 的 版 本 中 使 用 枚 举 Enum， 可 以 安装 Enum 的 向 
后 兼容 包 enum34。 


建议 12 : 不 推荐 使 用 type 来 进行 类 型 检查 


作为 动态 性 的 强 类 型 脚本 语言 ，Python 中 的 变量 在 定义 的 时 候 并 不 会 指明 具体 类 型 ，Python 
解释 器 会 在 运行 时 自动 进行 类 型 检查 并 根据 需要 进行 隐 式 类 型 转换 。 按 照 Python 的 理念 ， 为 
了 充分 利用 其 动态 性 的 特征 是 不 推荐 进行 类 型 检查 的 。 解 释 器 能 够 根据 变量 类 型 的 不 同 而 调 
用 合适 的 内 部 方法 进行 处 理 ， 而 当 a、b 类 型 不 同 而 两 者 之 间 又 不 能 进行 隐 式 类 型 转换 时 便 抛 
出 TypeError 异常 。 


不 刻意 进行 类 型 检查 ， 而 是 在 出 错 的 情况 下 通过 抛 出 异常 来 进行 处 理 ， 这 是 较为 常见 的 方 
式 。 但 实际 应 用 中 为 了 提高 程序 的 健壮 性 ， 仍 然 会 面临 需要 进行 类 型 检查 的 情景 。 


内 建 函 数 type(object) 用 于 返回 当前 对 象 的 类 型 ， 因 此 可 以 通过 与 Python 自 带 模块 types 
中 所 定义 的 名 称 进行 比较 ， 根 据 其 返回 值 确定 变量 类 型 是 否 符合 要 求 。 


所 有 基本 类 型 对 应 的 名 称 都 可 以 在 types 模块 中 找到 ， 然 而 使 用 type( ) 欧 数 并 不 适合 用 来 
进行 变量 类 型 检查 。 

。 基于 内 建 类 型 扩展 的 用 户 自 定义 类 型 ，type 函数 并 不 能 准确 返回 结果 

。 在 古典 类 中 ， 所 有 类 的 实例 的 type 值 都 相等 


对 于 内 建 的 基本 类 型 来 说 ， 使 用 type() 进行 类 型 检查 问题 不 大 ， 但 在 某 些 特殊 场合 
type() 方法 并 不 可 靠 。 解 决 方法 是 ， 如 果 类 型 有 对 应 的 工厂 函数 ， 可 以 使 用 工厂 函数 对 类 型 
做 相应 转换 ， 否 则 可 以 使 用 isinstance() 函数 来 检测 。 


isinstance(object, classinfo) 





| 甘 由 ] 、 - 可 ) A i > 米 少 ee tl pr pl HE A Ee Da i 会 类 全 
其 中 ，classinfo 可 以 为 直接 或 间接 类 名 、 基 本 类 型 名 称 或 者 由 它们 组 成 的 元 组 ， 该 函数 在 classinfo 参数 错 
下 会 抛 出 TypeError 异常 
# isinstance 基本 用 法 举例 如 下 : 


>>> isinstance(2, float) 

Ealse 

>>> isinstance("a", (str, unicode)) 

ae 

>>> isinstance((2，3)，(str，1List，tuple)) # 支持 多 种 类 型 列表 
Meue, 


建议 13 : 尽量 转换 为 浮 点 类 型 后 再 做 除法 
。 【PS : 这 应 该 是 Python2 中 存在 的 问题 】 


Python 在 最 初 的 设计 过 程 中 借鉴 了 C 语言 的 一 些 规则 ， 上 比如 选择 C 的 long 类 型 作为 Python 
的 整数 类 型 ，double 作为 浮 点 类 型 等 。 同 时 标准 的 算术 运算 ， 包 括 除法 ， 返 回 值 总 是 和 操作 
数 类 型 相同 。 作 为 静态 类 型 语言 ，C 语言 中 这 一 规则 问题 不 大 ， 因 为 变量 都 会 预先 申明 类 
型 ， 当 类 型 不 符 的 时 候 ， 编 译 器 也 会 尽 可 能 进行 强制 类 型 转换 ， 否 则 编译 会 报错 。 但 Python 
作为 一 门 高 级 动态 语言 并 没有 类 型 申明 这 一 说 。 


Python 中 除了 除法 运算 之 外 ， 整 数 和 浮 点 数 的 其 他 操作 行为 还 是 一 致 的 ， 因 此 这 容易 让 人 产 
生 一 种 误解 ， 数 值 的 计算 与 具体 操作 数 的 类 型 无 关 ， 但 事实 上 对 于 整数 除法 这 是 编程 过 程 中 
潜在 的 一 个 危险 。 推 荐 的 做 法 之 一 是 当 涉 及 除法 运算 的 时 候 尽量 先 将 操作 数 转换 为 浮 点 类 型 
再 做 运算 。 


在 Python3 中 这 个 问题 已 经 不 存在 了 。Python3 之 前 的 版 本 可 以 通过 from _future import 
division 机 制 使 整数 除法 不 再 截断 ， 这 样 即使 不 进行 浮 点 类 型 转换 ， 输 出 结果 也 是 正确 的 。 


还 需要 说 明 一 点 ， 浮 点 数 可 能 是 不 准确 的 ， 比 如 : 


i=1 

whalen ll 1.5; 
= 
Deumtee 


这 段 代码 会 导致 无 限 循 环 ， 在 内 存 中 根据 浮 点 数位 数 规定 ， 多 余部 分 直接 截断 。 对 于 浮 点 数 
的 处 理 ， 要 记 住 其 运算 结果 可 能 并 不 是 完全 准确 的 。 如 果 计 算 对 精度 要 求 较 高 ， 可 以 使 用 
Decimal 来 进行 处 理 或 者 将 浮 点 数 尽量 扩大 为 整数 ， 计 算 完毕 之 后 再 转换 回去 。 而 对 于 在 
While 中 使 用 i != 1.5 这 种 条 件 表 达 式 更 是 要 避免 的 ， 浮 点 数 的 比较 同样 最 好 能 够 指明 精 
扩 o 


建议 14 : 警惕 eval() 的 安全 漏洞 


Python 中 eval() 函数 将 字符 串 str 当成 有 效 的 表达 式 来 求 值 并 返回 计算 结果 。 其 函数 声明 如 


下 二 eval(expression[, globals[, locals]]) ° 


其 中 ， 参 数 globals 为 字典 形式 ，locals 为 任何 映射 对 象 ， 它 们 分 别 表 示 全 局 和 局 部 

间 。 如 果 传 入 globals 参数 的 字典 中 缺少 _ builtins 的 时 候 ， 当 前 的 全 局 命名 空 Wn 
globals 参数 输入 并 且 在 表达 式 计算 之 前 被 解析 。locals 参数 默认 与 globals 相同 ， 如 果 两 者 
都 省 略 的 话 ， 表 达 式 将 在 eval() 调用 的 环境 中 执行 。 


eval 存在 安全 漏洞 ， 一 个 简单 的 例子 


import sys 
from math import * 
defMExpCalcBot (stringo): 
El 
print "Your answer is"，eval(user_func) # 计算 输入 的 值 
except NameError: 
print "The expression you enter Ts mot valyd” 
prant eq Ha TIT amexpCalcBot please NMUC Vour eXpressrionmn or entere to emg 
inputstr = "" 
while True: 
print please enterranumber or operatione entere torcompulete. 


inputstr = raw_input() 

if inputstr == str('e'): 到 输入 为 e 的 时 候 退 出 
sys.exit() 

elif repr(inputstr) != repr(''): 
ExpCalcBot(inputstr) 
inputstr = "" 


由 于 网 络 环境 下 运行 它 的 用 户 并 非 都 是 可 信任 的 ， 上 比如 输入 import ("os").system("dir") 
， 它 会 显示 当前 目 录 下 的 所 有 文件 列表 ;输入 __import ("os").system("del] * /Q") ， 会 导致 
当前 目录 下 的 所 有 文件 都 被 删除 了 ， 而 这 一 切 没有 任何 提示 。 


如 果 在 globals 参数 中 禁止 全 局 命名 空间 的 访问 : 


def EXpcCalcBot(strang 六 
TeV 
matnafunalrst = Vacosm as eatan .cos ec logp .logl0n DT po 
Wi san Son ana 
math_fun_dict = dict([(k, globals().get(k)) for k in math_fun_list]) # 形成 可 以 
访问 的 函数 的 字典 
print "Your name is", eval(string, {"_ builtins ": None}, math_ fun_dict) 
except NameError: 
print "The expression you enter is not valid" 


再 次 进行 恶意 输入 : [c for c in ()._ class . bases [0]. subclasses () if c. name _ 





== "QUuitter"][0](0)() ? # (). class . bases _ [0]. subclasses_ _() 用 来 显示 object 类 
的 所 有 子 类 。 类 Quitter 与 "quit" 功能 绑 定 ， 因 此 上 面 的 输入 会 导致 程序 退出 。 





注 : 可 以 在 Python 的 安装 目录 下 的 Lib\site.py 中 找到 其 类 的 定义 。 也 可 以 在 解释 器 中 输 
入 查看 输出 结果 。 


对 于 有 经 验 的 侵入 者 来 说 ， 他 可 能 会 有 一 系列 强大 的 手段 ， 使 得 eval 可 以 解释 和 调用 这 些 方 
法 ， 从 而 带 来 更 大 的 破坏 。 此 外 ， eval() 函数 也 给 程序 的 调试 带 来 一 定 困 难 ， 要 查看 
eval() 里 面 表达 式 具 体 的 执行 过 程 很 难 。 因 此 在 实际 应 用 过 程 中 如 果 使 用 对 象 不 是 信任 源 ， 
应 该 避免 使 用 eval， 在 需要 使 用 eval 的 地 方 可 用 安全 性 更 好 的 ast.literal eval 替代 。 


建议 15 : 使 用 enumerate() 获取 序列 和 迭代 的 索引 和 值 


有 N 种 实现 方法 ， 举 例如 下 : 


RO a i btn 
print "index:", index, "element:", 1 
index += 1 
# 方法 二 :使 用 range() 和 len() 方法 结合 
汪汪 三 请 [ae Ce Lo el 
for i in range(len(1i)): 
print "index:", i, ‘element:", J3[1| 


# 方法 三 ; 使 用 while 循环 ， 用 len() 获取 循环 次 数 
十 工 :三 [本 as De 人 Wo "e"] 
index = 0 


while index < len(1i): 
primte Tandex .index element. .J lindex] 
index += 1 


六 21D() 礼 法 

= [raw es Ca J le 'e'] 

for i, e in zip(range(len(1i)), 1i): 
print "index:", i, "element:", ee 


# 方法 五 :使 用 enumerate() 获取 序列 迭代 的 索引 和 值 
工 工 三 as ep ee re "e”] 
for i, e in enumerate(1i): 

printm index 1 element: me 


推荐 使 用 函数 enumerate() ， 主 要 是 为 了 解决 在 循环 中 获取 索引 以 及 对 应 值 的 问题 。 它 具有 
一 定 的 情 性 (lazy) ， 每 次 仅 在 需要 的 时 候 才 会 产生 一 个 (index, item) 对 。 其 函数 签名 如 


平 、: enumerate(sequence, start=0) 


其 中 ，sequence 可 以 为 序列 ， 如 list、set 等 ， 也 可 以 为 一 个 iterator 或 者 任何 可 以 迭代 的 对 
象 ， 默 认 的 start 为 0， 函数 返回 本 质 上 为 一 个 迭代 器 ， 可 以 使 用 next() 方法 获取 下 一 个 选 代 


enumerate() 了 有 子 数 的 内 部 实现 非常 简单 ， enumerate(sequence，start=6) 实际 相当 于 如 下 代 
码 : 


def enumerate(sequence, start=0): 
n = start 
for elem in Sequence : 
yield n, elem 
n += 1 


因此 利用 这 个 特性 用 户 还 可 以 实现 自己 的 enumerate() 函数 。 比 如 ， myenumerate() 以 反 序 
的 方式 获取 序列 的 索引 和 值 。 


def my_enumerate(sequence): 
n= 
for elem in reversed(sequence): 
yield len(sequence) + Nn, elem 
ne = 


AR ， 对 于 字典 的 迭代 循环 ， enumerate() 函数 并 不 和 适合， 虽然 在 使 用 上 并 不 会 提 
错误 ， 但 输出 的 结果 与 期 望 的 大 相 径 庭 ， 这 是 因为 字典 默认 被 转换 成 了 序列 进行 处 理 。 要 
sa 只 过 程 中 字典 的 key 和 value， 应 该 使 用 iteritems 方法 。 


建议 16 : 分 清 == 与 is 的 适用 场景 
可 以 通过 id() 函数 来 看 看 变量 在 内 存 中 具体 的 存储 空间 。 


is 表示 的 是 对 象 标示 符 (object identity) ， 而 == 表示 的 意思 是 相等 (equal) 。is 的 作用 是 
用 来 检查 对 象 的 标示 符 是 否 一 致 的 ， 也 就 是 比较 两 个 对 象 在 内 存 中 是 否 拥有 同一 块 内 存 空 

间 ， 它 并 不 适合 用 来 判断 两 个 字符 串 是 否 相 等 。x is y 仅 当 X 和 y 是 同一 个 对 象 的 时 候 才 
返回 True，x is b 基本 相当 于 id(x) == id(y) 。 而 == 才 是 用 来 检验 两 个 对 象 的 值 是 否 相 
等 的 ， 它 实际 调用 内 部 _eq_() 方法 ， 因 此 a == b 相当 于 avmeqna(bye ? 所 以 == 操作 
符 也 是 可 以 被 重 载 的 ， 而 js 不 能 被 重 载 。 一 般 情 况 下 ， 如 果 x is y 为 True 的 话 x == 
的 值 也 为 True (特殊 情况 除外 ， 如 NaN，a=floag('NaN') ，aisa 为 True，a==a 为 
false) 。 


Python 中 存在 string interning 《字符 串 驻 留 ) 机 制 ， 对 于 较 小 的 字符 串 ， 为 了 提高 系统 
性 能 会 保留 其 值 的 一 个 副本 ， 当 创建 新 的 字符 串 的 时 候 直 接 指 向 该 副本 即 可 。 


建议 17 : 考虑 兼容 性 ， 尺 可 能 使 用 Unicode 


Python 内 建 的 字符 事 有 两 种 类 型 : str 和 Unicode ， 它 们 拥有 共同 的 祖先 basestring 。 其 
中 ，unicode 是 Python2.0 中 引入 的 一 种 新 的 数据 类 型 ， 所 有 的 unicode 字符 串 都 是 
Unicode 类 型 的 实例 。 


] 建 一 个 Unicode 字符 


str_unicode = u"unicode" # 前 面 加 U 表示 Unicode 


Unicode 编码 系统 可 以 分 为 编码 方式 和 实现 方式 两 个 层次 。 在 编码 方式 上 ， 分 为 Ucs-2 和 
Ucs-4 两 种 方式 ，Ucs-2 用 两 个 字 节 编码 ，Ucs-4 用 4 个 字 节 编码 。 目 前 实际 应 用 的 统一 
码 对 应 于 Ucs-2 ， 使 用 16 位 的 编码 空间 。 一 个 字符 的 Unicode 编码 是 确定 的 ， 但 是 在 实际 
传输 过 程 中 ， 由 于 系统 平台 的 不 同 以 及 出 于 节省 空间 的 目的 ， 实 现 方式 有 所 差异 。Unicode 
的 实现 方式 称 为 Unicode 转换 格式 (Unicode Transformation Format) ， 简 称 为 UTF， 包 括 
UTF-7 、 UTF-16 、 UTF-32 、 UTF-8 等 ， 其 中 较为 常见 的 为 UTF-8 。 UTF-8 的 特点 是 对 不 
同 范围 的 字符 使 用 不 同 长 度 的 编码 ， 其 中 6xog ~ gx7F 的 字符 的 UTF-8 编码 与 ASCII 编码 
完全 相同 。 UTF-8 编码 的 最 大 长 度 是 4 个 字 节 ， 从 Unicode 到 UTF-8 的 编码 方式 如 下 所 


不 ， 


Unicode 编码 (十 六 进 制 ) UTF-8 字 节 流 (二 进 制 ) 
000000 ~ 00007F OXXXXXXX 
000080 ~ 0007FF 110xxxxx 10XXXXXX 
000800 ~ 00FFFF 1110XXXX 10XXXXXX 10XXXXXX 
010000 ~ 10FFFF 11110xxx 10xxxxxx 10xxxxxx 10XXXXXX 


Python 中 处 理 中 文字 符 经 常会 遇 到 的 几 个 问题 : 


e。 读 出 文件 的 内 容 显 示 为 乱码 
。 当 Python 源 文件 中 包含 中 文字 符 的 时 候 抛 出 SyntaxError 异常 
。 普通 字符 和 Unicode 进行 字符 囊 连接 的 时 候 抛 出 UnicodeDecodeError 异常 


对 字符 串 进行 解码 和 编码 ， 其 中 decode() 方法 将 其 他 编码 对 应 的 字符 串 解 码 成 Unicode， 
而 encode() 方法 将 Unicode 编码 转换 为 另 一 种 编码 ，Unicode 作为 转换 过 程 中 的 中 间 编 
码 。 decode() 和 encode() 方法 的 函数 形式 如 下 : 


常见 的 编码 参数 : 


编码 参数 描述 
ascii 7 位 ASCII 码 
laten-1 or iso-8859-1 1ISO 8859-1，Latin-1 
utf-8 8 位 可 变 长 度 编码 
utf-16 16 位 可 变 长 度 编 码 
utf-16-le UTF-16 ， little-endian 编码 
utf-16-be UTF-16 ，big-endian 编码 
unicode-escapse 与 unicode 文字 Ustring' 相同 
raw-unicode-escape 与 原始 Unicode 文字 ur'string' 相同 


错误 处 理 参 数 有 以 下 3 种 常用 方式 : 


。 sitrict : 默认 处 理 方式 ， 编 码 错误 抛 出 UnicodeError 措 和 党 
。 ignore : 忽略 不 可 转换 字符 
。 replace : 将 不 可 转换 字符 用 ? 代替 


有 些 软 件 在 保存 UTF-8 编码 的 时 候 ， 会 在 文件 最 开始 的 地 方 插入 不 可 见 的 字符 BOM ( exEF 
gxBB gxBF ， 即 BOM ) ， 这 些 不 可 见 字 符 无 法 被 正确 的 解析 ， 而 利用 codecs 模块 可 以 方便 地 
处 理 这 种 问题 。 


Import codecs 

content = open("test.txt", "r").read() 

filehandle.close() 

if content[:3] == codecs.BOM UTF8: # 如 果 存 在 BOM 字符 则 去 棕 
content = content[3:] 

print content.decode("utf-8") 


关于 BOM : 


Unicode 存储 有 字 节 序 的 问题 ， UTF-16 以 两 个 字 节 为 编码 单元 ， 在 字符 的 传送 过 程 中 ， 为 了 
标明 字 节 的 顺序 ，Unicode 规范 中 推荐 使 用 BOM (Byte Order Mark) : 即 在 UCS 编码 中 用 
一 个 叫做 ZERO WIDTH NO-BREAK SPACE 的 字符 ， 它 的 编码 是 FEFF 【该 编码 在 UCS 中 不 存在 
对 应 的 字符 ) ，UCS 规范 建议 在 传输 字 节 流 前 ， 先 传输 字符 ZERO WIDTH NO-BREAK SPACE 。 这 
样 如 果 接 收 者 收 到 FEFF， 就 标明 这 个 字 节 流 是 Big-Endian 的 ; 如 果 收 到 FFFE， 就 表明 这 
个 字 节 流 是 Little-Endian 的 。 UTF-8 使 用 字 节 来 编码 ， 一 般 不 需要 BOM 来 表明 字 节 顺 
序 ， 但 可 以 用 BOM 来 表明 编码 方式 。 字 符 ZERO WIDTH NO-BREAK SPACE 的 UTF-8 编码 是 EF 
BB BF 。 所 以 如 果 接 收 者 收 到 以 EF BB BF 开头 的 字 节 流 ， 就 知道 这 是 UTF-8 编码 了 。 


LU 
| 


Python 中 的 默认 编码 ， 可 以 通过 sys.getdefaultencoding() 来 验证 ) 。 当 调用 print 方法 输 
出 的 时 候 会 隐 式 地 进行 从 ASCI| 到 系统 默认 编码 (Windows 上 为 CP936) 的 转换 。 要 避免 这 
种 错误 需要 在 源 nl 明 ， 声 明 可 用 正则 表达 式 : coding=[:=]\s*([-\w.]+) 表 

示 。 一 般 来 说 进行 源 文件 编码 声明 有 以 下 三 种 方式 : 


® # coding=<encoding name> ， 比如 #coding=utf-8 


。 第 二 种 


#!1/UuSr/bin/python 


*- Coding: <encoding name> -* 


#!/UusSr/bin/python 


# Vim: set fileencoding=<encoding name> : 


Python2.6 之 后 可 以 通过 import unicode_literals 自动 将 定义 的 普通 字符 识别 为 Unicode 字 
符 串 ， 这 样 字符 串 的 行为 将 和 Python3 中 保持 一 致 。 


建议 18 : 构建 合理 的 包 层 次 来 管理 module 


本 质 上 每 一 个 Python 文件 都 是 一 个 模块 ， 使 用 模块 可 以 增强 代码 的 可 维护 性 和 可 重用 性 。 但 
在 大 的 项 目 中 将 所 有 的 python 文件 放 在 一 个 目录 下 并 不 是 一 个 值得 推荐 的 做 法 ， 需 要 合理 地 
组 织 项 目的 层次 来 管理 模块 ， 这 就 是 包 (Package ) 发 挥 功效 的 地 方 了 。 


AR 录 ， 但 与 普通 目录 不 同 ， 它 及 含 常 规 的 Python 文件 (也 就 是 模块 ) 以 
外 ， 含 一 个 _ init .py 文件 ， 同 时 0 8 


包 中 的 模块 可 以 通过 "." 访 问 符 进行 访问 ， 即 " 包 名 .模块 名 "。 有 以 下 几 种 导入 方法 : 
e 直接 导入 一 个 包 : import Package 


e 导入 子 模 块 或 子 包 ， 包 髋 套 的 情况 下 可 以 进行 诅 套 导入 ， 具 体 如 下 : 


from Package import Module1 

import Package.Module1 

from Package import Subpackage 

import Package.Subpackage 

from Package.Subpackage import Module1 
import Package.Subpackage.Module1 


_init .py 最 明显 的 作用 就 是 使 @@ 和 普通 目录 区 分 ; 其 次 可 以 在 该 文件 中 申明 模块 级 别 的 
import 语句 从 而 使 其 变 成 包 级 别 可 见 。 如 果 ”init .py 文件 为 空 ， 0 from 
Package import * 将 包 Package 中 所 有 的 模块 导入 当前 名 字 空 间 时 并 不 能 使 得 导入 的 模块 生 
效 ， 这 是 因为 不 同 平台 间 的 文件 的 命名 规则 不 同 ，Python 解释 器 并 不 外 oo 
的 平台 该 如 何 导 入 ， 因 此 它 仅 仅 执行 _init .py 文件 ， 如 果 要 控制 模块 的 导入 ， 则 需要 对 
init_ .py 文件 做 修改 。 


_init .py 文件 还 有 一 个 作用 就 是 通 _ 变量 ， 控 制 需 要 导入 的 子 
包 或 者 模块 。 之 后 再 运行 from ... import * ， 可 以 看 到 _all ”变量 中 定义 的 模块 和 包 被 
导入 当前 名 字 空 间 。 


过 在 该 文件 中 定义 _all 


包 的 使 用 能 够 带 来 以 下 便利 : 


e 合理 组 织 代 码 ， 便 于 维护 和 使 用 
e 能 够 有 效 地 避免 名 称 空间 冲突 


如 果 模 块 包含 的 属性 和 方法 存在 同名 冲突 ， 使 用 import module 可 以 有 效 地 避免 名 称 冲 突 。 
在 秦 套 的 包 结构 中 ， 每 一 个 模块 都 以 其 所 在 的 完整 路 径 作 为 其 前 组 


级， 因此 ， 即 使 名 称 一 样 ， 
但 由 于 模块 所 对 应 的 其 前 级 不 同 ， 因 此 不 会 产生 冲突 。 


第 3 章 基 础 语法 


建议 19 : 有 节制 地 使 用 from ... import 语句 


Python 提供 了 3 种 方式 来 引入 外 部 模块 : import 语句 、from ... import ..， 及 
_ import _ 函数。 其 中 较为 常见 的 为 前 面 两 种 ， 而 _import _ 函数 与 import 语句 类 似 ， 
不 同 点 在 于 前 者 显 式 地 将 模块 的 名 称 作为 字符 囊 传递 并 赋值 给 命名 空间 的 变量 。 


在 使 用 import 的 时 候 注意 以 下 几 点 : 


e 一 般 情 况 下 尽量 优先 使 用 import a 形式 
e。 有 节制 地 使 用 from a import B 形式 
e。 尽量 避免 使 用 from a import * ， 因为 这 会 污染 命名 空间 


Python 在 初始 化 运行 环境 的 时 候 会 预先 加 载 一 批 内 建 模块 到 内 存 中 ， 这 些 模块 相关 的 信息 被 
存放 在 sys.modules 中 。 读 者 导入 sys 模块 后 在 Python 解释 器 中 输入 sys.modules.items() 
便 可 显示 所 有 预 加 载 模块 的 相关 信息 。 当 加 载 一 个 模块 的 时 候 ， 解 释 器 实际 上 要 完成 以 下 动 

人 


。 在 sys.modules 中 进行 搜索 看 看 该 模块 是 否 已 经 存在 > 如 果 存 在 ? 则 将 其 导入 到 当前 局 
部 命名 空间 ， 加 载 结 

e 如 果 在 sys.modules 中 找 不 到 对 应 模块 的 名 称 ， 则 为 需要 导入 的 模块 创建 一 个 字典 对 

象 ， 并 将 该 对 象 信息 插入 sys.modules 中 

加 载 前 确认 是 否 需 要 对 模块 对 应 的 文件 进行 编译 ， 如 果 需 要 则 先进 行 编译 

执行 动态 加 载 ， 在 当前 模块 的 命名 空间 中 执行 编译 后 的 字 节 码 ， 并 将 其 中 所 有 的 对 象 放 

入 模块 对 应 的 字典 中 


对 于 用 户 定义 的 模块 ，import 机 制 会 创建 一 个 新 的 module 将 其 加 入 当前 的 局 部 命名 空间 中 ， 
与 此 同时 ， sys.modules 也 加 入 了 该 模块 的 相 关 信 息 。 但 从 id 输出 的 结果 可 以 看 出 ， 本 质 上 
是 引用 同一 个 对 象 。 同 时 会 发 现 所 在 的 目录 下 多 了 一 个 .pyc 的 文件 ， 该 文件 为 解释 器 生成 
的 模块 对 应 的 字 节 码 ， 从 import 之 后 的 输出 可 以 看 出 模块 同时 被 执行 。 


需要 注意 的 是 ? 直接 使 用 Import 和 使 用 from a import B 形 式 这 两 者 之 间 存 在 一 定 的 差 
异 ， 后 者 直接 将 B 暴露 于 当前 局 部 空间 ， 而 将 a 加 载 到 sys.modules 集合 。 
对 于 from a import ..， 无 节制 的 使 用 会 带 来 什么 问题 : 
。 命名 空间 的 冲突 
o 一 般 来 说 在 非常 明确 不 会 造成 命名 冲突 的 前 提 下 ， 以 下 几 种 情况 下 可 以 考虑 使 用 
from ... import 语 纠 : 
a 当 只 需要 导入 部 分 属性 或 方法 时 
@ 模块 中 的 这 些 属性 和 方法 访问 频率 较 高 导致 使 用 "模块 名 .名 称 " 的 形式 进行 访问 


过 于 繁琐 时 
@ 模块 的 文档 明确 说 明 需 要 使 用 from ... import 形式 ， 导 入 的 是 一 个 包 下 面 的 
子 模 块 ， 且 使 用 from ... import 形 式 能 够 更 为 简单 和 便利 时 。 
。 循环 诺 套 导入 的 问题 
o 解决 循环 诅 套 导入 问题 的 一 个 方法 是 直接 使 用 import 语句 


建议 20 : 优先 使 用 absolute import 来 导入 模块 
解释 器 默认 先 从 当前 目录 下 搜索 对 应 的 模块 ， 当 搜 到 时 便 停止 搜索 进行 动态 加 载 。 


在 Python2.4 以 前 默认 为 隐 式 的 relative import ， 局 部 范围 的 模块 将 覆盖 同名 的 全 局 范围 
的 模块 。 如 果 要 使 用 标准 库 中 同名 的 模块 ， 需 要 深入 考察 sys.modules 。Python2.5 中 后 虽然 
默认 的 仍然 是 relative import ， 但 它 为 absolute import 提供 了 一 种 新 的 机 制 ， 在 模块 中 
使 用 from future import absolute_import 语句 进行 说 明 后 再 进行 导入 。 同 时 它 还 通过 点 
号 提供 了 一 种 显 式 进行 relative import 的 方法 ，"." 表示 当前 目录 ，".." 表示 当前 目录 的 上 
一 层 目 录 。 


使 用 显 式 relative import 之 后 再 运行 程序 可 能 遇 到 这 种 错误 "ValueError: Attempted 
relative import in non-package"。 这 个 问题 产生 的 原因 在 于 relative import 使 用 模块 的 
_name ”属性 来 决定 当前 模块 在 包 的 顶层 位 置 ， 而 不 管 模块 在 文件 系统 中 的 实际 位 置 。 而 在 
relative Import 的 情形 下 ” _ name 会 随 着 文件 加 载 方 式 的 不 同 而 发 生 改 变 。 python -m 
中 -m 的 作用 是 使 得 一 个 模块 像 脚本 一 样 运行 。 而 无 论 以 何 种 方式 加 载 ， 当 在 包 的 内 部 运行 
脚本 的 时 候 ， 包 相关 的 结构 信息 都 会 丢失 ， 默 认 当 前 脚本 所 在 的 位 置 为 模块 在 包 中 的 顶层 位 
置 ， 因 此 便 会 抛 出 异常 。 


解决 办 法 : 


e 在 包 的 顶层 目录 中 加 入 参数 -m 运行 该 脚本 
e。 利用 Python2.6 在 模块 中 引入 的 _package ”属性 ， 设 置 _package 之 后 ， 解 释 器 会 
根据 _ package ”和 name 的 值 来 确定 包 的 层次 结构 。 





一 个 参考 示例 ， 以 下 不 会 出 现在 包 结 构 内 运行 模块 对 应 的 脚本 时 出 错 的 情况 : 


uF name == "main " and _ package _ is None: 





import sys 

import os.path 

sys.path[0] = os.path.abspath("™./../../") 
print sys.path[0] 

import app.sub1i 

package = str("app.sub1") 

from . import string 


相 比 于 absolute import ， relative import 在 实际 应 用 中 反馈 的 问题 较 多 ， 因 此 推荐 优先 使 
用 absolute import 。 absolute import 可 读 性 和 出 现 问题 后 的 可 跟踪 性 都 更 好 。 当 项 目的 包 
层次 结构 较为 复杂 的 时 候 ， 显 式 relative import 也 是 可 以 接受 的 ， 由 于 命名 冲突 的 原因 以 
及 语义 模糊 等 原因 ， 不 推荐 使 用 隐 式 地 relative import ， 并 且 它 在 Python3 中 已 经 被 移 

除 汪 


建议 21: 工 += 1 不 等 于 ++i 


Python 解释 器 会 将 ++i 操作 解释 为 +(+i) ， 其 中 + 表示 正 数 符号 。 对 于 --i 操作 也 是 


类 似 。 


因此 需要 明白 ++i 在 Python 中 语法 上 是 合法 的 ， 但 并 不 是 我 们 理解 的 通常 意义 上 的 自 增 操 
作 。 


建议 22 : 使 用 with 自动 关闭 资源 


对 文件 操作 完成 后 应 该 立即 关闭 它们 ， 因 为 打开 的 文件 不 仅 会 占用 系统 资源 ， 而 且 可 能 影响 
其 他 程序 或 者 进程 的 操作 ， 其 至 会 导致 用 户 期 望 与 实际 操作 结果 不 一 致 。 


Python 提供 了 with 语句 ， 语 法 为 : 


with 表达 式 [as 目标 ] : 
代码 块 


with 语句 支持 诺 套 ， 支 持 多 个 with 子 甸 ， 它 们 两 者 可 以 相互 转换 。 with exprl as el， 
expr2 as e2 与 下 面 的 歼 套 形式 等 价 : 


with exprl as ei: 
with expr2 as e2: 


with 语句 可 以 在 代码 块 执行 完毕 后 还 原 进 入 该 代码 块 时 的 现场 。 包 含有 with 语句 的 代码 
块 的 执行 过 程 如 下 : 


计算 表达 式 的 值 ， 返 回 一 个 上 下 文 管理 器 对 象 

e 加 载 上 下 文 管理 器 对 象 的 exit () 方法 以 备 后 用 

。 调用 上 下 文 管理 器 对 象 的 _enter () 方法 

e@ 如 果 with 语句 中 设置 了 目标 对 象 ， 则 将 _enter_() 方法 的 返回 值 赋值 给 目标 对 象 

。 执行 with 中 的 代码 块 

。 如 果 步 又 5 中 代码 正常 结束 ， 调 用 上 下 文 管理 其 对 象 的 ”exit () 方法 ， 其 返回 值 直 
接 忽略 

。 如 果 步 又 5 中 代码 执行 过 程 中 发 生 异常 ， 调 用 上 下 文 管理 器 对 象 的 exit _() 方法 ， 

并 将 异常 类 型 、 值 及 traceback 信息 作为 参数 传递 给 ”exit () 方法 。 如 果 


_ exit () 返回 值 为 false， 则 弄 常 会 被 重新 抛 出 ; 如 果 其 返回 值 为 true， 弄 常 被 挂 
起 ， 程 序 继续 执行 。 


在 文件 处 理 时 使 用 with 的 好 处 在 于 无 论 程序 以 何 种 方式 跳出 with 块 ， 总 能 保证 文件 被 正确 关 

闭 。 实 际 上 ， 它 不 仅仅 针对 文件 处 理 ， We 景 同样 可 以 实现 运行 时 环境 的 清理 与 还 

原 ， 如 多 线程 编程 中 的 锁 对 象 的 管理 。 with 得 益 于 一 个 称 为 上 下 文 管理 器 (context 

的 东西 ， 用 来 创建 一 个 ee 。 上 下 文 管理 器 是 这 样 一 个 对 象 : 它 定义 程 
运行 时 需要 建立 的 上 下 文 ， 处 理 程序 的 进入 和 退出 ， 实 现 了 上 下 文 管理 协议 ， 即 在 对 象 中 

定义 _enter () 和 exit () 方法 。 其 中 : 


e。 _enter () :进入 运行 时 的 上 下 文 ， 返 回 运行 时 上 下 文 相 关 的 对 象 ， with 语 负 中 会 将 
这 个 返回 值 绑 定 到 目标 对 象 。 

© exit (exception_ type, exception value, traceback) : 退出 运行 时 的 上 下 文 ， 定 义 在 
块 执 行 ( 或 终止 ) 之 后 上 下 文 管理 器 应 该 做 什么 。 它 可 以 处 理 异 常 、 清 理 现场 或 者 处 理 
with 块 中 语句 执行 完成 之 后 需要 处 理 的 动作 。 


实际 上 任何 实现 了 上 下 文 协 议 的 对 象 都 可 以 称 为 一 个 上 下 文 管理 器 ， 文 件 也 是 实现 了 这 个 协 
议 的 上 下 文 管理 器 ， 它 们 都 能 够 与 with 语 名 兼容 。 


用 户 也 可 以 定义 自己 的 上 下 文 管理 器 来 控制 程序 的 运行 ， 只 要 实现 上 下 文 协 议 便 能 够 和 
with 语句 一 起 使 用 : 


class MyContextManager (object): 
def enter (self): # 实现 __enter 方法 
printm enCterung 
def exit__(self, exception type, exception value, traceback): 
prantem leavange 
If exception_type is None: 
print "no exceptions™ 
return False 
elif exception_ type is ValueError: 
print "Value error!!!" 
elu ue 
else: 
print "other error” 
newunmme nue 


with MyContextManager(): 
prunte Mestungee 
raise(ValueError) # 注释 这 一 句 会 得 到 不 同 的 效果 


因为 上 下 文 管理 器 主要 作用 于 资源 共享 ， 因 此 在 实际 应 用 中 _enter () 和 exit () 方 
法 基本 用 语 资 源 分 配 以 及 释放 相关 的 工作 ， ih 异常 处 理 、 断 开 流 的 连接 、 锁 
分 配 等 。 为 了 更 好 地 辅助 上 下 文 管理 ，Python 还 提供 了 contextlib 模块 ， 该 模块 是 通过 


Generator 实现 的 ， context1lib 中 的 contextmanager 作为 装饰 器 来 提供 一 种 针对 函数 级 别 
的 上 下 文 管理 机 制 ， 可 以 直接 作用 于 函数 /对 象 而 不 用 去 关心 _enter () 和 exit () 方 
法 的 具体 实现 。 


建议 23 : 使 用 else 子 句 简化 循环 (异常 处 理 ) 


在 循环 中 ， else 子 句 提供 了 隐 含 的 对 循环 是 否 由 break 语句 引发 循环 结束 的 判断 。 例 子 : 


# ”以 下 两 段 代码 寺 价 


| 由 


## 我 们 了 标志 量 found 来 判断 循环 结束 是 不 是 由 break 语句 引起 的 





for i in xrange(2, n): 
found = True 
for J in xrange(2, 1): 
if i % j == 0: 
found = False 
break 
If found: 
print("{} is a prime number".format(i)) 


defnprint rme2(m): 
for i in xrange(2, n): 
for J in xrange(2, 1). 
if i % j == 0: 
break 
else: 
print("{} is a prime number".format(i)) 


当 和 循环“ 自然" 终结 (循环 条 件 为 假 ) 时 else 从 名 会 被 执行 一 次 ， 而 当 循 环 是 由 break 语句 
中 断 时 ， else 子 句 就 不 被 执行 。 与 for 语句 相似 ，while 语句 中 的 else 子 句 的 语意 是 
一 样 的 : else 块 在 循环 正常 结束 和 循环 条 件 不 成 立时 被 执行 。 


在 Python 的 异常 处 理 中 ， 也 提供 了 else 子 名 语法，try 块 没 有 抛 出 任何 异常 时 ， 执 行 
else 块 。Python 的 异常 处 理 中 有 一 种 try-except-else-finally 形式 。 


建议 24 : 遵循 异常 处 理 的 几 点 基本 原则 


异常 处 理 通常 需要 遵循 以 下 几 点 基本 原则 : 


。 注意 异常 的 粒度 ， 不 推荐 在 try 中 放 入 过 多 的 代码 。 在 处 理 异常 的 时 候 最 好 保持 异常 粒 
度 的 一 致 性 和 合理 性 。 在 try 中 放 入 过 多 的 代码 带 来 的 问题 是 如 果 程序 中 抛 出 异常 ， 将 会 
较 难 定位 ， 给 debug 和 修复 带 来 不 便 ， 因 此 应 尽量 只 在 可 能 抛 出 异常 的 语句 块 前 面 放 入 
try 语句 。 

。 说 惯 使 用 单独 的 except 语句 处 理 所 有 蜡 常 ， 最 好 能 定位 具体 的 异 溃 。 同 样 也 不 推荐 使 用 
except Exception 或 者 except StandardError 来 捕获 异常 。 如 果 必 须 使 用 ， 最 好 能 够 使 


用 raise 语句 将 异常 抛 出 向 上 层 传递 。 

。 注意 异常 捕获 的 顺序 ， 在 合适 的 层次 处 理 异 常 。Python 中 内 建 异 常 以 类 的 形式 出 现 ， 
Python 2.5 后 异常 被 迁移 到 新 式 类 上 ， 启 用 了 一 个 新 的 所 有 蜡 常 之 母 的 BaseException 
类 ， 内 建 异 常 有 一 定 的 继承 结构 。 

o 用 户 也 可 以 继承 自 内 建 异 常 构建 自己 的 异常 类 ， 从 而 在 内 建 类 的 继承 结构 上 进一步 
延伸 。 在 这 种 情况 下 捕获 异常 的 顺序 显得 非常 重要 。 为 了 更 精确 地 定位 错误 发 生 的 
原因 ， 推 荐 的 方法 是 将 继承 结构 中 子 类 异常 在 前 面 的 except 语句 中 抛 出 ， 而 父 类 弄 
常 在 后 面 的 except 语句 抛 出 。 这 样 做 的 原因 是 当 try 块 中 有 异常 发 生 的 时 候 ， 解 释 
器 根据 except 声明 的 顺序 进行 匹配 ， 在 第 一 个 匹配 的 地 方便 立即 处 理 该 异常 。 

o 异常 捕获 的 顺序 非常 重要 ， 同 时 异常 应 该 在 适当 的 位 置 被 处 理 ， 一 个 原则 就 是 如 果 
异常 能 够 在 被 捕获 的 位 置 被 处 理 ， 那 么 应 该 及 时 处 理 ， 不 能 处 理 也 应 该 以 合适 的 方 
式 向 上 层 抛 出 。 向 上 层 传递 的 时 候 需 要 警惕 异常 被 丢失 的 情况 ， 可 以 使 用 不 带 参 数 
的 raise 来 传递 

。 使 用 更 为 友好 的 异常 信息 ， 遵 守 异 常 参数 的 规范 。 软 件 最 终 是 位 用 户 服务 的 ， 当 异常 发 
生 的 时 候 ， 异 常 信息 清晰 友好 与 否 直接 关系 到 用 户 体验 。 通 常 来 说 有 两 类 异常 阅读 者 : 
使 用 软件 的 人 和 开发 软件 的 人 。 


建议 25 : 避免 finally 中 可 能 发 生 的 陷阱 


无 论 try 语句 中 是 否 有 异常 抛 出 ” finally 语句 总 会 被 执行 。 由 于 这 个 特性 ” finally 语 
名 经 常 被 用 来 做 一 些 清 理工 作 。 


但 使 用 finally 时 ， 也 要 特别 小 心 一 些 陷 阱 。 


e 当 try 块 中 发 生 异 常 的 时 候 ， 如 果 在 except 语句 中 找 不 到 对 应 的 异常 处 理 ， 异 常 将 
会 被 临时 保存 起 来 ， 当 finally 执行 完毕 的 时 候 ， 临 时 保存 的 异常 将 会 再 次 被 抛 出 ， 但 
如 果 finally 语句 中 产生 了 新 的 异常 或 者 执行 了 return 或 者 break 语句 ， 那 么 临时 
保存 的 异常 将 会 被 去 失 ， 从 而 导致 异常 屏蔽 。 

。 在 实际 应 用 程序 开发 过 程 中 ， 并 不 推荐 在 finally 中 使 用 return 语句 进行 返回 ， 这 种 
处 理 方式 不 仅 会 带 来 误解 而 且 可 能 会 引起 非常 严重 的 错误 。 


/ 


建议 26 : 深入 理解 None， 正 确 判 断 对 象 是 否 为 空 


Python 中 以 下 数据 会 当 作 空 来 处 理 : 


e 常量 None 


。 常量 False 

。 任何 形式 的 数值 类 型 零 ， 如 0、0L、0.0、0j 

。 空 的 序列 ， 如 "0 、 

e 空 的 字典 ， 如 全 

e 当 用 户 定义 的 类 中 定义 了 nonzero() 和 1len() 方法 ， 并 且 该 方法 返回 整数 0 或 者 布尔 
值 False 的 时 候 。 


其 中 常量 None 的 特殊 性 体现 在 它 既 不 是 9 、 False ， 也 不 是 空 字符 串 2 它 就 是 一 个 空 值 
对 象 。 其 数据 类 型 为 NoneType ， 遵 循 单 例 模 式 ， 是 唯一 的 ， 因 而 不 能 创建 None 对 象 。 所 
有 赋值 为 None 的 变量 都 相等 ， 并 且 None 与 任何 其 他 非 None 的 对 象 比 较 结果 都 为 


False ° 


If list1 # value is not empty 
Do something 

else: # value is empty 
Do some other thing 


执行 过 程 中 会 调用 内 部 方法 nonzero () 来 判断 变量 list1 是 否 为 空 并 返回 其 结 

果 。 _nonzero () 方法 : 该 内 部 方法 用 于 对 自 身 对 象 进 行 空 值 测试 ， 返 回 0/1 或 
True/False 。 如 果 一 个 对 象 没 有 定义 该 方法 ，Python 将 获取 _1en () 方法 调用 的 结果 来 
进行 判断 。 ”1en () 返回 值 为 0 则 表示 为 室 。 如 果 一 个 类 中 既 没 有 定义 len () 方法 也 
没有 定义 _ nonzero () 方法 ， 该 类 的 实例 用 if 判断 的 结果 都 为 True 。 


建议 27 : 连接 字符 串 应 优先 使 用 join 而 不 是 + 


Python 中 的 字符 串 与 其 他 一 些 程序 语言 如 C++、Java 有 一 些 不 同 ， 它 为 不 可 变 对 象 ， 一 旦 
创建 便 不 能 改变 ， 它 的 这 个 特性 直接 影响 到 Python 中 字符 串 连 接 的 效率 。 


e。 使 用 操作 符 + 连接 字符 串 
e。 使 用 join 方法 连接 字符 串 


一 个 测试 的 例子 : 


import timeit 

# 生成 测试 所 需要 的 字符 数组 

strlist = ["it is a long value string will not keep in memory" for n in range(100000)] 
de 人 和 OnEEes 巧 (由 


return "".join(strlist) # 使 用 join 方法 连接 strlist 中 的 元 素 并 返回 字符 串 
defnplusatest(: 
result = "" 


for i, v in enumerate(strlist): 
Pekin t= 


return result 


a name = NN 





join timer = timeit.Timer("join test()", "from _ main _ import join_test") 
print(join timer.timeit(number=100)) 
plus_timer = timeit.Timer("plus_test()", "from _ main _ import plus_test") 
print(plus_timer.timeit(number=100)) 


从 分 析 测 试 结果 图 表示 ， join() 方法 的 效率 要 高 于 + 操作 符 。 当 用 操作 符 + 连接 字符 串 
的 时 候 ， 由 于 字符 串 是 不 可 变 对 象 ， 其 工作 原理 实际 上 是 这 样 的 : 如 果 要 连接 如 下 字符 
串 : S1+S2+S3+...+SN ， 执 行 一 次 + 操作 便 会 在 内 存 中 申请 一 块 新 的 内 存 空 间 ， 并 将 上 一 次 
操作 的 5 果 和 木 次 操作 的 右 操作 数 复 制 到 新 中 请 青 的 内 存 空间 ， 在 N 个 字符 串 连 接 的 过 程 中 ， 
会 产生 N-1 个 中 间 结 果 ， 每 产生 一 个 中 间 结 果 都 需要 申请 和 复制 一 次 内 存 ， 总 共 需 要 申请 

N-1 次 内 存 ， 从 而 严重 影响 了 执行 效率 ， 时 间 复 杂 度 近似 为 o(nA2) 。 


而 当 用 join() 方法 连接 字符 串 的 时 候 ， 会 首先 计算 需要 申请 的 总 的 内 存 空间 ， 然 后 一 次 性 
申请 所 需 内 存 并 将 字符 序列 中 的 每 一 个 元 素 复 制 到 内 存 中 去 ， 所 以 join 操作 的 时 间 复 杂 度 
为 o(n) 。 

建议 28 : 格式 化 字符 串 时 尽量 使 用 .format 方式 而 不 是 % 
Python 中 内 置 的 % 操作 符 和 .format 方式 都 可 用 于 格式 化 字符 串 。 


% 操作 符 根据 转换 说 明 符 所 规定 的 格式 返回 一 串 格 式 化 后 的 字符 串 ， 转 换 说 明 符 的 基本 形式 
为 : % [转换 标记 ] [宽度 [ ,精确 度 ] ] 转 换 类 型 。 其 中 常见 的 转换 标记 和 转换 类 型 分 别 如 下 表 所 示 ， 
如 果 未 指定 宽度 ， 则 默认 输出 为 字符 串 本 身 的 宽度 。 


格式 化 字符 串 转 换 标记 


转换 标记 解释 

- 表示 左 对 齐 

十 在 正 数 之 前 加 上 + 

(a space) 表示 正 数 之 前 保留 空格 

# 在 八进制 数 前 面 显示 零 (0)， 在 十 六 进 制 前 面 显示 0x 或 者 0X 
0 表示 转换 值 若 位 数 不 够 用 0 填充 而 非 默认 的 空格 


格式 化 字符 串 转 换 类 型 


转换 类 型 


XX 
eE 
fF 

gG 


解释 
转换 为 单个 字符 ， 对 于 数字 将 转换 该 值 所 对 应 的 ASCI| 码 
转换 为 字符 串 ， 对 于 非 字符 串 对 象 ， 将 默认 调用 str() 函数 进行 转换 
用 repr() 函数 进行 字符 串 转换 
转换 为 带 符号 的 十 进 制 数 
转换 为 不 带 符号 的 十 进 制 数 
转换 为 不 带 符号 的 八进制 数 
转换 为 不 带 符号 的 十 六 进 制 
表示 为 科学 计数 法 表示 的 浮 点 数 
转 成 浮 点 数 (小 数 部 分 自然 截断 ) 
如 果 指 数 大 于 -4 或 者 小 于 精度 值 则 和 e/E 相同 ， 其 他 情况 与 fF 相同 


% 操作 符 格 式 化 字符 串 时 有 如 下 几 种 常见 用 法 : 


e@ 直接 格式 化 字符 或 者 数值 
e@ 以 元 组 的 形式 格式 化 
e@ 以 字典 的 形式 格式 化 


.format 方式 格式 化 字符 串 的 基本 语法 为 : [[ 壤 充 符 ] 对 齐 方式 ][ 符号 ][#][6][ 宽度 ][,][. 精 
确 度 ][ 转换 类 型 ] 。 其 中 填充 符 可 以 是 除了 "{ 和 ")" 符号 之 外 的 任意 符号 ， 对 齐 方式 和 符号 分 
别 如 下 衣 所 示 ， 和 转换 类 型 跟 % 操作 符 的 转换 类 型 类 似 。 


.format 方式 格式 化 字符 串 的 对 齐 方式 


对 齐 广 
式 


解释 
表示 左 对 齐 ， 是 大 多 数 对 象 为 默认 的 对 齐 方式 
表示 右 对 齐 ， 数 值 默 认 的 对 齐 方式 


仅 对 数值 类 型 有 效 ， 如 果 有 符号 的 话 ， 在 符号 后 数值 前 进行 填充 ， 如 
-000029 


居中 对 齐 ， 用 空格 进行 填充 


.format 方式 格式 化 字符 串 符号 列表 


CD 


符号 解释 


十 正 数 前 加 ++， 负 数 前 加 - 
- 正 数 前 不 加 符号 ， 负数 前 加 -， 为 数值 的 默认 形式 
空格 正 数 前 加 空格 ， 负 数 前 加 - 


.format 方法 几 种 常见 的 用 法 如 下 : 


。 使 用 位 置 符号 


>>>° >。 The mumber {Om un hexrs lox the number (C1) Limoct Ls {UH#o hor 
mat(4746, 45) 
mhe number 4,746 in hex is: Oxl28a, the number 45 In oct 1s 0055 


。 使 用 名 称 


>>> "the max number is {max}, the min number is {min}, the average number is 
{average:0.3f}".format (max=189, min=12.6, average=23.5) 
"the max number is 189, the min number is 12.6, the average number is 23.500' 


class Customer (object): 
def mnie (selfr name, gender phomey) 
self.name = name 
self.gender = gender 
self.phone = phone 


de 人 SI 人 Se) 
returnni Customerselisnanmneh (selfnygender}r self phoney) shormat(se 
lf=self) 
>>> str(Customer("Lisa", "Female", "67889")) 


VCustomer(Lisa, Female, 67889)" 


。 格式 化 元 组 的 具体 项 


>>> point = (1, 3) 
>>> "X:{0[0]};Y:{0[1]}".format(point) 
p60 BA frie 


推荐 尽量 使 用 format 方式 而 不 是 % 操作 符 来 格式 化 字符 串 ， 理 由 如 下 : 


24 
JU 下 


© format 方式 在 使 用 上 和 较 % 操作 符 更 为 灵活 9 使 用 format 方式 时 9 参数 的 顺序 与 格式 
化 的 顺序 不 必 完 全 相同 


e@ format 方式 可 以 方便 的 作为 参数 传递 


weather = [("Monday", "rain"), ("Tuesday"”, "sunny"), ("Wednesday", "sunny"), ( 
mnumsday ,ran Ermulay ec lou dl 
formatter = "Weather of '{0[0]}' is '{0[1]}'".format 
for item In map(formatter, weather): 
print(item) 


| EE |] | 





。 % 最 终 会 被 ,format 方式 所 代替 。 根 据 Python 的 官方 文档 ， 之 所 以 仍然 保留 % 操作 
符 是 为 了 保持 向 后 兼容 


。 % 方法 在 某 些 特殊 情况 下 使 用 时 需要 特别 小 心 ， 对 于 % 直接 格式 化 字符 的 这 种 形式 ， 
如 果 字 符 本 身 为 元 组 ， 则 需要 使 用 在 % 使 用 (itemname,) 这 种 形式 才能 避免 错误 ， 注 


oh 


建议 29 : 区 别 对 待 可 变 对 软 和 不 可 变 对 边 


Python 中 一 切 尼 对 象 ， 每 一 个 对 象 都 有 一 个 唯一 的 标示 符 〈id()) 、 类 型 (type()) 以 及 值 。 
对 象 根 据 其 值 能 否 修改 分 为 可 变 对 象 和 不 可 变 对 象 ， 其 中 数字 、 字 符 串 、 元 组 属于 不 可 变 对 
象 ， 字 典 以 及 列表 、 字 节 数 组 属于 可 变 对 象 。 


字符 串 为 不 可 变 对 象 ， 任 何 对 字符 串 中 某 个 字符 的 修改 都 会 抛 出 异常 。 修 改 字符 串 中 某 个 字 
符 可 以 采用 如 下 方式 : 


test_str = "I am a pytlon string" 
import array 

a = array.array("c", test_str) 
a[10] = 'h' 

print(a.tostring()) 


默认 参数 在 函数 被 调用 的 时 候 仅仅 被 评估 一 次 ， 以 后 都 会 使 用 第 一 次 评估 的 结果 。 在 将 可 变 
对 象 作为 函数 默认 参数 的 时 候 要 特别 紧 惕 ， 对 可 变 对 象 的 更 改 会 直接 影响 原 对 象 。 最 好 的 方 
法 是 传 入 None 作为 默认 参数 ， 在 创建 对 象 的 时 候 动 态 生 成 可 变 对 象 。 


对 于 一 个 可 变 对 象 ， 还 有 一 个 问题 是 需要 注意 的 。 切 片 操作 相当 于 浅 拷贝。 对 于 不 可 变 对 象 
来 说 ， 当 我 们 对 其 进行 相关 操作 的 时 候 ，Python 实际 上 仍然 保持 原来 的 值 而 且 重 新 创建 一 个 
新 的 对 象 ， 所 以 字符 串 对 象 不 允许 以 索引 的 方式 进行 赋值 ， 当 有 两 个 对 象 同时 指向 一 个 字符 
串 对 象 的 时 候 ， 对 其 中 一 个 对 象 的 操作 并 不 会 影响 另 一 个 对 象 。 


建议 30: [] 、() 和 {} :一 致 的 容器 初始 化 形式 


列表 解析 (list comprehension) ， 语 法 为 : [expr for iter_item in iterable if 


cond_expr] ° 


。 列表 解析 支持 多 重 许 套 

。 支持 多 重 和 迭代 

e 列表 解析 语法 中 的 表达 式 可 以 是 简单 表达 式 ， 也 可 以 是 复杂 表达 式 ， 甚 至 是 函数 
e 列表 解析 语法 中 的 iterable 可 以 是 任意 可 和 迭代 对 象 


推荐 在 需要 生成 列表 的 时 候 使 用 列表 解析 : 


。 使 用 列表 解析 更 为 直观 清晰 ， 代 码 更 为 简洁 
e。 列表 解析 的 效率 更 高 (对 于 大 数据 处 理 ， 列 表 解 析 并 不 是 一 个 最 住 选择 ， 过 多 的 内 存 消 
耗 可 能 会 导 致 MemoryError ) 


元 组 (tuple ) 的 初始 化 语法 是 ( expr for iter_item in iterable if cond_expr ) 2 而 集合 
(set) 的 初始 化 语法 是 {expr for iter_item in iterable if cond_expr } ， 甚 至 字典 (dict) 
也 有 类 似 的 语法 { expri, expr2 for iter_item in iterable If cond_ expr } ° 但 需要 注意 ” 
为 元 组 也 适用 赋值 语句 的 装 箱 和 拆 箱 机 制 。 另 外 ， 当 函数 接受 一 个 可 和 迭代 对 象 参数 时 ， 可 以 

使 用 元 组 的 简写 形式 : 


def Fool(a): 
O19 J TiN eal: 
print(I) 
foo(i for i in range(3) if i % 2 == 0) 


建议 31 : 记 住 函数 传 参 既 不 是 传 值 也 不 是 传 引 用 


对 于 Python 函数 参数 是 传 值 还 是 传 引 用 这 个 问题 的 答案 是 : 都 不 是 。 正 确 的 叫 法 应 该 是 传 对 
象 (call by object) 或 者 说 传 对 象 的 引用 (call-by-object-reference) 。 函 数 参 数 在 传递 的 过 

程 中 将 整个 对 象 传 入 ， 对 可 变 对 象 的 修改 在 函数 外 部 以 及 内 部 都 可 见 ， 调 用 者 和 被 调用 者 之 

间 共 享 这 个 对 象 ， 而 对 于 不 可 变 对 象 ， 由 于 并 不 能 站 正 被 修改 ， 因 此 ， 修 改 往 往 是 通过 生成 

一 个 新 对 象 然 后 赋值 来 实现 的 。 


# 自己 的 测试 

>>> def test func(a list): 
a_list[0] = 
print("0: {}".format(a_list)) 
Aalsts Oc ud al 
print("1: {}".format(a_list)) 


>>>>amlste le oe il 
>>> test_func(a_list) 
Qa el 

ale Ee op ds oe Tole] 

>>> a_list 

[Ed aesil 


建议 32 : 警惕 上 默认 参数 潜在 的 问题 


def 在 Python 中 是 一 个 可 执行 的 语句 ， 当 解释 器 执行 def 的 时 候 ， 默 认 参 数 也 会 被 计算 ， 并 
存在 元 数 的 .func_defaults 属性 中 。 由 于 Python 中 元 数 参 数 传 递 的 是 对 象 ， 可 变 对 象 在 调 
用 者 和 被 调用 者 之 间 共 享 ， 而 再 次 调用 的 时 候 默 认 参 数 不 会 重新 计算 。 


如 果 不 想 让 默认 参数 所 指向 的 对 象 在 所 有 的 函数 调用 中 被 共享 ， 而 是 在 函数 调用 的 过 程 中 动 
态 生 成 ， 可 以 在 定义 的 时 候 用 None 对 象 作为 占 位 符 。 


建议 33 : 惯用 变 长 参数 


Python 支持 可 变 长 度 的 参数 列表 ， 可 以 通过 在 函数 定义 的 时 候 使 用 *args 和 x**kwargs 这 
两 个 特殊 语法 来 实现 。 


。 使 用 vargs 来 实现 可 变 参 数列 表 : *args 用 于 接受 一 个 包装 为 元 组 形式 的 参数 列表 来 
传递 非 关键 字 参 数 ， 参 数 个 数 可 以 任意 。 

。 使 用 “rkwargs 接受 字典 形式 的 关键 字 参 数列 表 ， 其 中 字典 的 键 值 对 分 别 表示 不 可 变 参 
数 的 参数 名 和 值 。 


不 同形 式 的 参数 同时 存在 的 情况 下 ， 会 首先 满足 普通 参数 ， 然 后 是 默认 参数 。 如 果 剩 余 的 参 
数 个 数 能 够 覆盖 所 有 的 默认 参数 ， 则 默认 参数 会 使 用 传递 时 候 的 值 ; 如 果 剩 余 参 数 个 数 不 
够 ， 则 尽 最 大 可 能 满足 默认 参数 的 值 。 除 此 之 外 的 参数 除了 键 值 对 以 外 的 所 有 参数 都 将 作为 
args 的 可 变 参数 ，kwargs 则 与 键 值 对 对 应 。 


惯用 可 变 长 度 参 数 ， 原 因 如 下 : 


e 使 用 过 于 灵活 ， 在 混合 普通 参数 或 者 默认 参数 的 情况 下 ， 变 长 参数 意味 着 这 个 函数 的 签 
名 不 够 清晰 ， 存 在 多 种 调用 方式 。 另 外 变 长 参数 可 能 会 破坏 程序 的 健壮 性 。 

@ 如 果 一 个 函数 的 参数 列表 很 长 ， 虽然 可 以 通过 使 用 *args 和 **kwargs 来 简化 函数 的 定 
义 ， 但 这 通常 意味 着 这 个 函数 可 以 有 更 好 的 实现 方式 ， 应 该 被 重 构 。 


o 如 果 参 数 的 数目 不 确定 ， 可 以 考虑 使 用 变 长 参数 。 
o 用 来 实现 函数 的 多 态 或 者 在 继承 情况 下 子 类 需要 调用 父 类 的 菜 些 方法 的 时 候 


建议 34 : 深入 理解 str() 和 repr() 的 区 别 


函数 str() 和 repr() 都 可 以 将 Python 中 的 对 象 转换 为 字符 串 ， 它 们 的 使 用 以 及 输出 都 非 
常 相 似 。 总 结 来 说 有 以 下 几 点 区 别 : 


e 两 者 之 间 的 目标 不 同 : str() 主要 面向 用 户 ， 其 目的 是 可 读 性 ， 返 回 形 式 为 用 户 友好 性 
和 可 读 性 都 较 强 的 字符 串 类 型 ; 而 repr() 面向 的 是 Python 解释 器 ， 或 者 说 开发 人 员 ， 
其 目的 是 准确 性 ， 其 返回 值 表示 Python 解释 器 内 部 的 含义 ， 常 作为 编程 人 员 debug 用 

。 在 解释 器 中 直接 输入 时 默认 调用 repr() 函数 ， 而 print | str() 函数 

e repr() 的 返回 值 一 般 可 以 用 eval() 函数 来 还 原 对 象 ， 通 常 来 说 有 如 下 等 式 : obj == 
eval(repr(obj)) ， 这 个 等 式 不 是 所 有 情况 下 都 成 立 

e 一 般 来 说 在 类 中 都 应 该 定义 _repr_() 方法 ， 而 _str _() 方法 则 为 可 选 ， 当 可 读 性 
比 准确 性 更 为 重要 的 时 候 应 该 考虑 定义 str_() 方法 。 如 果 类 中 没有 定义 _str_() 
方法 ， 则 默认 会 使 用 _repr_() 方法 的 结果 来 返回 对 象 的 字符 串 表 示 形 式 。 ， 实现 
_repr () 方法 的 时 候 最 好 保证 其 返回 值 可 以 用 eval() 方法 使 对 象 重新 还 


建议 35 : 分 清 staticmethod 和 classmethod 的 适用 场景 


Python 中 的 静态 方法 和 类 方法 都 依赖 于 装饰 器 来 实现 。 静 态 方法 和 类 方法 都 可 以 通过 类 名 . 方 
法 名 或 者 实例 .方法 名 的 形式 来 访问 。 其 中 静态 方法 没有 常规 方法 的 特殊 行为 ， 如 绑 定 、 非 绑 
定 、 隐 式 参数 等 规则 ， 而 类 方法 的 调用 使 用 类 本 身 作为 其 隐 含 参数 ， 但 调用 本 身 并 不 需要 显 

示 提 供 该 参数 。 


类 方法 在 调用 的 时 候 没 有 显 式 声明 cls， 但 实际 上 类 本 身 是 作为 隐藏 参数 传 入 的 。 


方法 既 不 跟 特 定 的 实例 相关 也 不 跟 特 定 的 类 相关 ， 因 此 将 其 定义 为 静态 方法 是 个 不 错 的 选 
择 ， 这 样 代码 能 够 一 目 了 然 。 静 态 方法 定义 在 类 中 ， 较 之 外 部 函数 ， 能 够 更 加 有 效 地 将 代码 
组 织 起 来 ， 从 而 使 相关 代码 的 垂直 距离 更 近 ， 提 高 代码 的 可 维护 性 。 


第 4 齐 库 
建议 36 : 掌握 字符 串 的 基本 用 法 


利用 Python 遇 到 未 闭合 的 小 括号 时 会 自动 将 多 行 代码 拼接 为 一 行 和 把 相 邻 的 两 个 字符 串 字面 
量 拼接 在 一 起 。 相 比 使 用 3 个 连续 的 单 ( 双 ) 引号 ， 这 种 方式 不 会 把 换行 符 和 前 导 空格 当 作 
字符 串 的 一 部 分 ， 则 更 加 符合 用 户 的 思维 习惯 。 


Python 中 的 字符 串 其 实 有 str 和 unicode 两 种 ， 虽 然 在 Python3 中 已 经 简化 为 一 种 ， 但 如 果 
还 在 编写 运行 Python2 上 的 程序 ， 当 需要 判断 变量 是 否 为 字符 串 时 ， 应 该 使 用 isinstance(s， 
basestring) ， 这 里 的 参数 是 basestring 而 不 是 str 。 因 为 basestring 才 是 str 和 
unicode 的 基 类 ， 包 含 了 普通 字符 串 和 unicode 类 型 。 


需要 注意 的 是 *with() 函数 族 可 以 接受 可 选 的 start 、 end 参数 ， 善 加 利用 ， 可 以 优化 性 
能 。 另 外 ， 自 Python2.5 版 本 起 ， *wtih() 函数 族 的 prefix 参数 可 以 接受 tuple 类 型 的 


实 参 ， 当 实 参 中 的 某 个 元 素 能 够 匹配 时 ， 即 返回 True 。 


查找 与 替换 ” count(Ssub[，start[，end]])、find(sub[，start[，end]])、index(Ssub[，start[， 


end]])、rfind(sub[，start[，end]])、rindex(sub[，start[，end]]) 这 些 方法 都 接受 

start 、 end 参数 ， 善 加 利用 ， 可 以 优化 性 能 。 其 中 count() 能 够 查找 子囊 sup 在 字符 
串 中 出 现 的 次 数 ， 这 个 数值 在 调用 replace 方法 的 时 候 用 得 着 。 此 外 ， 需 要 注意 find() 和 
index() 方法 的 不 同 : find() 远 数 族 找 不 到 时 返回 -1， index() 元 数 族 则 抛 出 

ValueError 异常 。 但 对 于 判定 是 否 包含 子 串 的 判定 并 不 推荐 调用 这 些 方 法 ， 而 是 推荐 使 用 
in 和 not in 操作 符 。 


replace(old, new[, count]) 用 以 蔡 换 字符 串 的 茶 些 子囊 ， 如 果 指 定 count 参数 的 话 ， 就 最 
多 替换 count 次 ， 如 果 不 指定 ， 就 全 部 替换 。 

partition(sep) ~、 rpartition(sep) 、 splitlines([keepends]) 、 split([sep[, maxsplit]])、 
rsplit([sep[, maxsplit]]) ， 只 要 天 清楚 partition() 和 split() 就 可 以 

了 。 *partition() 函数 族 是 Python2.5 新 增 的 方法 ， 它 接受 一 个 字符 串 参 数 ， 并 返回 一 个 3 
个 元 素 的 元 组 对 象 。 如果 Sep 没有 出 现在 母 串 中 ， 返 回 值 是 (Se ; 否则 ， 返 回 值 
的 第 一 个 元 素 是 sep 左 端 的 部 分 ， 第 二 个 元 素 是 sep 自身， 第 三 个 元 素 是 sep 右 端的 部 分 。 
而 split() 的 参数 maxsplit 是 分 切 的 次 数 ， 即 最 大 的 分 切 次 数 ， 所 以 返回 值 最 多 有 
maxsplit + 1 个 元 素 3 


但 split() 有 不 少 小 陷阱 ， 比 如 对 于 字符 串 sS，s.split() 和 s,split(' ') 的 返回 值 是 不 
相同 的 。 产 生 差 异 的 原因 在 于 : 当 忽略 sep 参数 或 sep 参数 为 None 时 与 明确 给 sep 赋予 字 
符 串 值 时 ， split() 采用 两 种 不 同 的 算法 。 对 于 前 者 ， split() 先 去 除 字符 串 两 端的 空白 
符 ， 然 后 以 任意 长 度 的 空白 符 串 作为 界定 符 分 切 字符 串 〈 即 连续 的 空白 符 串 被 当做 单一 的 空 
白 符 看 待 ) ; 对 于 后 者 则 认为 两 个 连续 的 sep 之 间 存 在 一 个 空 字符 囊 。 


因为 title() 骂 数 并 不 去 除 字 符 串 两 端的 空白 符 也 不 会 把 连续 的 空白 符 蔡 换 为 一 个 空格 ， 所 
以 不 能 把 title() 理解 先 以 空白 符 分 切 字符 串 ， 然 后 调用 capitalize() 处 理 每 个 字 词 以 使 
其 首 字母 大 写 ， 再 用 空格 将 它们 连接 在 一 起 。 使 用 string 模块 中 的 capwords(s) 函数 ， 它 
能 够 去 除 两 端的 空白 符 ， 再 将 连续 的 空白 符 用 一 个 空格 代替 。 


删除 : 如 果 strip([chars]) 、 lstrip([chars]) 、 rstrip([chars]) 中 的 chars 参数 没有 指 
定 ， 就 是 删除 空白 符 ， 空 白 符 由 string.whitespace 常量 定义 。 十 充 则 常用 于 字符 串 的 输 
出 ， 比 如 center(width， [fillchar])、1just(width[，Tfillchar])、rjust(width[，fillchar])、 
zfill(width)、expandtabs([tabsize]) ， 包 括 居 中 、 左 对 齐 、 右 对 齐 等 ， 这 些 方法 中 的 
fillchar 参数 是 指 用 以 填充 的 字符 ， 默 认 是 空格 。 而 zfill() 中 的 ZzZ 是 指 Zzero， zfill() 
即 是 以 字符 0 进行 填充 ， 在 输出 数值 时 比较 常用 ° expandtabs() 的 tabsize 参数 默认 为 
8， 它 的 功能 是 把 字符 串 中 的 制 表 符 (tab) 转换 为 适当 数量 的 空格 。 


建议 37 : 按 需 选择 sort() 或 者 sorted() 


Python 中 的 排序 ， 常 用 的 函数 有 sort() 和 sorted() 两 种 。 这 两 种 函数 并 不 完全 相同 ， 各 
有 各 的 用 武之 地 。 


e。 相 比 于 sort() ， sorted() 使 用 的 范围 更 为 广泛 ， 两 者 的 函数 形式 分 别 如 下 : 


sorted(iterable[, cmp[, key[, reversel]]]) 
s.sort([cmp[, key[, reverse]]]) 


这 两 个 方法 有 以 下 3 个 共同 的 参数 : 


o cmp 为 用 户 定义 的 任何 比较 函数 ， 函 数 的 参数 为 两 个 可 比较 的 元 素 (来 自 iterable 
或 者 list ) ， 函 数 根据 第 一 个 参数 与 第 二 个 参数 的 关系 依次 返回 -1、0 或 者 
+1 (第 一 个 参数 小 于 第 二 个 参数 则 返回 负数 ) 。 该 参数 默认 值 为 None 。 

o key 是 一 个 带 参 数 的 函数 ， 用 来 为 每 个 元 素 提 取 上 比较 值 ， 默认 为 None ( 即 直接 比较 
每 个 元 素 ) 

o reverse 表示 排序 结果 是 否 反 转 

sorted() 作用 于 任何 可 迭代 的 对 象 ， 而 sort() 一 般 作 用 于 列表 。 


e 当 排 序 对 象 为 列表 的 时 候 两 者 适合 的 场景 不 同 。 sorted() 函数 是 在 Python2.4 版 本 中 引 
入 的 ， 在 这 之 前 只 有 sort() 函数 。 sorted() 函数 会 返回 一 个 排序 后 的 列表 ， 原 有 列表 
保持 不 变 ; 而 sort() 有 阴 数 会 直接 修改 原 有 列表 ， 函 数 返回 为 None 。 


o 实际 应 用 过 程 中 需要 保留 原 有 列表 ， 使 用 sorted() 函数 较为 合适 ， 否 则 可 以 选择 
sort() 函数 ， 因 为 sort() 函数 不 需要 复制 原 有 列表 ， 消 耗 的 内 存 较 少 ， 效 率 也 
较 高 。 
e@ 无 论 是 sort() 还 是 sorted() 函数 ， 传 入 参数 key 比 传 入 参数 cmp 效率 要 
高 。 cmp 传 入 的 函数 在 整个 排序 过 程 中 会 调用 多 次 ， 函 数 开销 较 大 ; 而 key 针对 每 个 
元 素 仅 做 一 次 处 理 ， 因 此 使 用 key 比 使 用 cmp 效率 要 高 。 


。 sorted() 函数 功能 非常 强大 ， 使 用 它 可 以 方便 地 针对 不 同 的 数据 结构 进行 排序 ， 从 而 满 
足 不 同 需求 。 


o 对 字典 进行 排序 


>>> phone_book = {"Linda": "7750", "Bob": "9345", "Carol": "5834"} 
>>> from operator import itemgetter 

>>> Sorted pb = sorted(phone_ book.items(), key=itemgetter(1)) 

>>> print(sorted_pb) 

[Ocarol "seaary (Linda 7756 OBEOob 93450] 


o 多 维 list 排序 : 实际 情况 下 也 会 碰 到 需要 对 多 个 字段 进行 排序 的 情况 ， 这 在 DB 里 面 
用 SQL 语句 很 容易 做 到 ， 但 使 用 多 维 列 表 联 合 sorted() 函数 也 可 以 轻易 达到 。 


>>> import operator 

>>> game_result = [["Bob",95,"A"],["Alan",86,"cC"],["Mandy",82.5,"A"],["Rob",86 
Ey 

>>> sorted(game_result,key=operator.itemgetter(2, 1)) 

DMancdy ee 82850 A Bo os A AATan eC Rob ee El] 


[ED ms 对 


o 字典 中 混合 list 排序 : 如 果 字 典 中 的 key 或 者 值 为 列表 ， 需 要 对 列表 中 的 某 一 个 位 置 
的 元 素 排序 也 是 可 以 做 到 的 。 


>>> myEdlct euEnM iano ue 2 Wancg pS Du 2 Ma 
Aol ep A ne | [nl 

>>> import operator 

>>> sorted(my_dict.items(),Kkey=lambda item:operator.itemgetter(1)(item[1])) 

EC DU 2 Zhnange Ee 2 Wan le (he ba) 
» (‘Li', ['M', 7]), ('Ma', ['Cc', 9])] 


IE 


o List 中 混合 字典 排序 : 如 果 列表 中 的 每 一 个 元 素 为 字典 形式 ， 需 要 针对 字典 的 多 个 
key 值 进行 排序 也 不 难 实现 。 


>>> Import operator 

>>>>gameBresulte Eename ,Bob wns lO osses :3 ratmg ,750}. {ename uD 

VEUWVWaSSS OSSeS Se Matlino on amen nCarnol wins :Md lossess on 

atnnge Sn} Namen Patty Wins :9 LoSSes 3 natnge Tle 4 

>>> sorted(game_result,key=operator.itemgetter("rating", "name")) 

Eosses :> 50 name :Garol acnog :esr wins A losses Se name> 
Dev rating or Win 3 losses: 3 namnee patty IES ED 

ZI 48 Wns :9 ossese 3 name Bob ratung rs Wins TO 


I ss 3 Wa 


建议 38 : 使 用 copy 模块 深 找 贝 对 象 


。 浅 拷贝 (shallow copy) : 构造 一 个 新 的 复合 对 象 并 将 从 原 对 象 中 发 现 的 引用 插入 该 对 象 
中 。 浅 拷贝 的 实现 方式 有 多 种 ， 如 工厂 函数 、 切 片 操 作 、copy 模块 中 的 copy 操作 等 。 

。 深 找 贝 (deep copy) : 也 构造 一 个 新 的 复合 对 象 ， 但 是 遇 到 引用 会 继续 递归 拷贝 其 所 指 
向 的 具体 内 容 ， 也 就 是 说 它 会 针对 引用 所 指向 的 对 象 继续 执行 拷贝 ， 因 此 产生 的 对 象 不 
受 其 他 引用 对 象 操作 的 影响 。 深 拷贝 的 实现 需要 依赖 copy 模块 的 deepcopy() 操作 。 


实际 上 在 包含 引用 的 数据 结构 中 ， 浅 拷贝 并 不 能 进行 彻底 的 拷贝 ， 当 存在 列表 、 字 典 等 不 可 
变 对 象 的 时 候 ， 它 仅仅 拷贝 其 引用 地 址 。 要 解决 上 述 问 题 需 要 用 到 深 堵 贝 ， 深 拷贝 不 仅 拷 中 
引用 也 拷贝 引用 所 指向 的 对 象 ， 因 此 深 拷 贝 得 到 的 对 象 和 原 对 象 是 相互 独立 的 。 


Python copy 模块 提供 了 与 浅 捞 贝 和 深 找 贝 对 应 的 两 种 方法 的 实现 ， 通 过 名 字 便 可 以 轻易 进 
行 区 分 ， 模 块 在 拷贝 出 现 异 常 的 时 候 会 抛 出 copy.error 。 关 于 对 象 拷贝 可 以 参考 资料 。 


建议 39 : 使 用 Counter 进行 计数 统计 
可 以 使 用 不 同 数 据 结构 来 进行 实现 : 
e 使 用 dict 


e 使 用 defaultdict 


from collections import defaultdict 
someadatas = a 2 2 0 a az 
count_frq = defaultdict(int) 
for item In some_data: 
count_frq[item] += 1 


e 使 用 set 和 list 


Ssomeadatas = a 2 2 a D0 zl 
count_set = set(some_data) 
count_]list = [] 
for item in count_set: 
count_list.append( (item, some_data.count(item))) 


。 更 优雅 ， 更 Pythonic 的 解决 方法 是 使 用 collections.Counter : 


from collections import Counter 
some_data = Wa 2 2 A > 2 ei 六 人 A Sy ej Ze sal 


print(Counter(some_data)) 


counter 类 是 自 Python2.7 起 增加 的 ， 属 于 字典 类 的 子 类 ， 是 一 个 容器 对 象 ， 主 要 用 来 
统计 散 列 对 象 ， 支 持 集合 操作 +、-、&、| ， 其 中 @& 和 | 操作 分 别 返 回 两 个 
counter 对 象 各 元 素 的 最 小 值 和 最 大 值 。 它 提供 了 3 种 不 同 的 方式 来 初始 化 : 


Counter("success") # 可 和 迭代 对 象 
Counter(s=3，Cc=2，e=1，U=1) # 关键 字 参 数 
Counten( SS 20 0 ee 1 


可 以 使 用 elements() 方法 来 获取 counter 中 的 key 


值 。 list(Counter(some data).elements()) ° 
利用 most_common() 方法 可 以 找 出 前 N 个 出 现 频 率 最 高 的 元 素 以 及 它们 对 应 的 次 数 。 
当 访问 不 存在 的 元 素 时 ， 上 默认 返回 为 0 而 不 是 抛 出 keyError 异常 。 


update() 方法 用 于 被 统计 对 象 元 素 的 更 新 ， 原 有 counter 计数 器 对 象 与 新 增 元 素 的 统 
计 计 数值 相 加 而 不 是 直接 替换 它们 。 


subtract() 方法 用 于 实现 计数 器 对 象 中 元 素 统计 值 相 减 ， 输 入 和 输出 的 统计 值 允 许 为 0 
或 者 负数 。 


建议 40 : 深入 学 握 ConfigParser 


比如 pylint 就 带 有 一 个 参数 --rcfile 用 以 指定 配置 文件 ， 实 现 对 自 定义 代码 风格 的 检 

测 。 常 见 的 配置 文件 格式 有 XML 和 ini 等， 其 中 在 MS Windows 系统 上 ，ini 文件 格式 用 得 万 
其 多 ， 甚 至 操作 系统 的 API 也 都 提供 了 相关 的 接口 函数 来 支持 它 。 类 似 ini 的 文件 格式 ， 在 
Linux 等 操作 系统 中 也 是 极 常用 的 ， 比 如 pylint 的 配置 文件 就 是 这 个 格式 。Python 有 个 标 
准 库 来 支持 它 ， 也 就 是 configparser 。 


configParser 的 基本 用 法 通过 手册 可 以 掌握 ， 但 是 仍然 有 几 个 知识 点 值得 注意 。 首 先 就 是 
getboolean() 这 个 函数 。 getboolean() 根据 一 定 的 规则 将 配置 项 的 值 转换 为 布尔 值 ， 如 以 
下 的 配置 : 


[section1] 
option1=0 


当 调 用 getboolean("section1", "option1") 时 ， 将 返回 False 。 不 过 getboolean() 的 卜 值 
规则 值得 一 说 : 除了 0 以 外 ，no、false 和 off 都 会 被 转 义 为 False ， 而 对 应 的 1、yes、true 
和 on 则 都 被 转 义 为 True ， 其 他 值 都 会 导致 抛 出 valueError 弄 常 。 


除了 getboolean() 之 外 ， 还 需要 注意 的 是 配置 项 的 查找 规则 。 首 先 ， 在 ConfigParser 支持 
的 配置 文件 格式 里 ， 有 一 个 [DEFAULT] 节 ， 当 读 取 的 配置 项 不 在 指定 的 节 里 


时 ， configParser 将 会 到 [DEFAULT] 节 中 查找 。 
除 此 之 外 ， 还 有 一 些 机 制导 致 项 目 对 配置 项 的 查找 更 复杂 ， 这 就 是 class Configparser 构造 


函数 中 的 defaults 形 参 以 及 其 get(section, option[, raw[, vars]]) 中 的 全 名 参数 
vars 。 如 果 把 这 些 机 制 全 部 用 上 ， 和 那么 配置 项 值 的 查找 规则 如 下 : 


e@ 如 果 找 不 到 节 名 ， 就 抛 出 NosectionError 

e 如 果 给 定 的 配置 项 出 现在 get() 方法 的 var 参数 中 ， 则 返回 var 参数 中 的 值 
e 如 果 在 指定 的 节 中 含有 给 定 的 配置 项 ， 则 返回 其 值 

。 如 果 在 【DEFAULT】 中 有 指定 的 配置 项 ， 则 返回 其 值 

e 如 果 在 构造 函数 的 defaults 参数 中 有 指定 的 配置 项 ， 则 返回 其 值 

e。 抛 出 NoOptionError 


Python 中 字符 串 格 式 化 可 以 使 用 以 下 语法 : 


2 DotOcOliSUSserveissx(pontjsEEprotocolo neosenve seXxamnplesco 
ma Ore L080 
"heeD: /examplescom 1080/. 


其 实 ConfigParser 支持 类 似 的 用 法 ， 所 以 在 配置 文件 中 可 以 使 用 。 如 ， 有 如 下 配置 选项 : 


# format ,conf 

[DEFAULT] 

conn_str = %(dbn)s://%(user)s:%(pw)s@%(host)s:%(port)s/%(db)s 
dbn = mysql 

user = root 

host = localhost 


port = 3306 

[db1] 

user = aaa 

pw = ppp 

db = example 

[db2] 

host = 192.168.0.110 
pw = www 

db = example 


这 是 一 个 SQLALchemy 应 用 程序 的 配置 文件 ， 通 过 这 个 配置 文件 能 够 获取 不 同 的 数据 库 配 置 
相应 的 连接 字符 串 ， 即 conn_str 。 它 通过 不 同 的 节 名 来 获取 格式 化 后 的 值 时 ， 根 据 不 同 配 
置 ， 得 到 不 同 的 值 : 


import ConfigParser 

conf = ConfigParser.ConfigParser() 
conf ,read("format .conf") 
print(conf.get("db1i", "conn_str")) 
print(conf.get("db2", "conn_str")) 


建议 41 : 使 用 argparse 处 理 命令 行 参数 


管 应 用 程序 通常 能 够 通过 配置 文件 在 不 修改 代码 的 情况 下 改变 行为 ， 但 提供 灵活 易 用 的 命 
a 有 意义 ， 比 如 : 减轻 用 户 的 学 习 成 本 ， 通 常 命令 行 参数 的 用 法 只 需要 在 应 
用 程序 名 后 面 加 --help 参数 就 能 获得 ， 而 配置 文件 的 配置 ee 需要 通读 手册 才能 掌 
握 。 同 一 个 运行 环境 中 有 多 个 配置 文件 存在 ， 那 么 需要 通过 命令 行 参数 指定 当前 使 用 哪 一 个 

配置 文件 ， 如 pylint 的 --rcfile 参数 。 


关于 命 令 行 处 理 ， 标准 库 中 留 下 的 getopt 、 optparse 、 argparse 等 库 。 其 中 we 下 
类 似 UNIX 系统 中 getopt() 这 个 C 函数 的 实现 ， 可 以 处 理 长 短 配 置 项 和 参数 。 如 有 命 

参数 -a -b -cfoo -d bar al a2 ， 在 处 理 之 后 的 结果 是 两 个 列表 ， 其 eg 

表 : ECGSa .be fo0 dba: 每 一 个 元 素 都 由 配置 项 名 和 其 
值 《默认 为 空 字符 串 ) 组 成 ; 另 一 个 是 参数 列表 ['al'，'a2'] ， 每 一 个 元 素 都 是 一 个 参数 
值 。 


getopt 的 问题 在 于 两 点 : 一 个 是 长 短 配 置 项 需要 分 开 处 理 ， 二 是 对 非法 参数 和 必 填 参数 的 处 
里 需要 手动 。 这 种 处 理 非常 原始 和 不 便 。 


optparse 比 getopt 要 更 加 方便 、 强 劲 ， 与 C 押 风格 的 getopt 不 同 ， 它 采用 的 是 声 明 式 风 
格 ， 此 外 ， 它 还 能 够 自动 生成 应 用 程序 的 帮助 信息 


from optparse import OptionParser 
parser = OptionpParser() 


parser.add option("-f", "--file", dest="filename", help="write report to FILE", metava 
r="FILE") 
parser.add_ option("-q", "--quiet", action="store false", dest="verbose", default=True, 


help="don't print status messages to stdout") 
(options, args) = parser.parse_args() 


可 以 看 到 add_option() 方法 非常 强大 ， 同 时 支持 长 短 配 置 项 ， 还 有 默认 值 、 帮 助 信 息 等 ， 简 
单 的 几 行 代码 ， 可 以 支持 非常 丰富 的 命令 行 接口 。 


除 此 之 外 ， 虽 然 没 有 声明 帮助 信息 ， 但 默认 给 加 上 了 -h 或 --help 支持 ， 通 过 这 两 个 参数 
调用 应 用 程序 ， 可 以 看 到 自动 生成 的 帮助 信息 。 


不 过 optparse 虽然 很 好 ， 但 是 后 来 出 现 的 argparse 在 继承 了 它 声 明 式 风 格 的 优点 之 外 
又 多 了 更 丰富 的 功能 ， 所 以 现 阶段 最 好 用 的 参数 处 理 标 准 库 是 argparse ， 使 optparse 成 为 
了 一 个 被 弃 用 的 库 。 


与 optparse 中 的 add_option() 类 似 ，add_argument() 方法 用 以 增加 一 个 参数 声明 。 与 
add_option() 相 比 ， 它 有 几 个 方面 的 改进 ， 其 中 之 一 就 是 支持 类 型 增多 ， 而 且 语法 更 加 直 
观 。 表 现在 type 参数 不 再 是 一 个 字符 串 ， 而 是 一 个 可 调用 对 象 ， 比 如 在 add_option() 调 
用 时 是 type="int" ， 而 在 add argument() 调用 时 直接 写 type=int 就 可 以 了 。 除 了 支持 党 
规 的 int/float 等 基本 数值 类 型 外 ， argparse 还 支持 文件 类 型 ， 只 要 参数 合法 ， 程 序 就 能 
够 使 用 相应 的 文件 描述 符 。 


parser = argparse.ArgumentParser() 
parser.add argument("bar", type=argparse.FileType("w")) 
parser.parse args(["out.txt"]) 


另外 ， 扩 展 类 型 也 变 得 更 加 容易 ， 任 何 可 调用 对 象 ， 比 如 函数 ， 都 可 以 作为 type 的 实 参 。 
另外 choices 参数 也 支持 更 多 的 类 型 ， 而 不 是 像 add_option 那样 只 有 字符 串 。 比 


如 : parser.add argument("door", type=int, choices=range(1, 4)) ° 


此 外 ， add_argument() 提供 了 对 必 卉 参数 的 支持 ， 只 要 把 required 参数 设置 为 True 传递 
进去 ， 当 缺失 这 一 参数 时 ， argparse 就 会 自动 退出 程序 ， 并 提示 用 户 。 


ArgumentpParser 还 支持 参数 分 组 。 add_argument_group() 可 以 在 输出 帮助 信息 时 更 加 清晰 ， 
用 法 复杂 的 cLI 应 用 程序 中 非常 有 帮助 : 


parser = argparse.ArgumentParser(prog="PROG", add_help=False) 
group1 = parser.add argument_group("group1", "group1 description") 
groupi.add argument("foo", help="foo help") 

group2 = parser.add argument_group("group2", "group2 description") 
group2.add argument("--bar", help="bar help") 

parser.print_help() 


另外 还 有 add_mutually_exclusive_group(required=False) 非常 实用 : 它 确保 组 中 的 参数 至 少 
有 一 个 或 者 只 有 一 个 ( required=True ) 有 


argparse 也 支持 子 命令 ， 比 如 pip 就 有 install/uninstall/freeze/list/show 等 子 命令 ， 
这 些 子 命令 又 接受 不 同 的 参数 ， 使 用 ArgumentParser.add_subparsers() 就 可 以 实现 类 似 的 功 
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Import argparse 

parser = argparse.ArgumentParser(prog="PROG'"”) 

subparsers = parser.add_subparsers(help="sub-command help") 
parser_a = subparsers.add parser("a", help="a help") 
parser_a.add argument("--bar", type=int, help="bar help") 
parser.parse_args(["a", "--bar", "1"]) 


除了 参数 处 理 之 外 ， 当 出 现 非法 参数 时 ， 用 户 还 需要 做 一 些 处 理 ， 处 理 完成 后 ， 一 般 是 输出 
提示 信息 并 退出 应 用 程序 ° ArgumentParser 提供 了 两 个 方法 函数 ， 分 别 是 exit(status=0, 
message=None) 和 error(message) ， 可 以 省 了 import sys 再 调用 sys.exit() 的 步骤 8 


注意 : 虽然 9 已 经 非常 好 用 ， 但 又 出 现 了 docopt ， 它 是 比 argparse 更 先进 更 
易 用 的 命令 行 参数 处 理 器 。 它 甚至 不 需要 编写 代码 ， 只 要 编写 类 似 argparse 输出 的 帮助 
言 息 即 可 。 这 是 因为 它 根据 常见 的 帮助 信息 定义 了 一 套 领 域 特定 语言 (DSL) ， 通 过 这 
个 DSL Parser 参数 生成 处 理 命令 行 参数 的 代码 ， 从 而 实现 对 命令 行 参 数 的 角 

释 。 docopt 现在 还 不 是 标准 库 。 


， 


Ey 


建议 42 : 使 用 pandas 处 理 大 型 CSV 文件 


CSV (Comma Separated Values) 作为 一 种 过 号 分 隔 型 值 的 纯 文 本 格式 文件 ， 在 实际 应 用 中 
经 常用 到 ， 如 数据 库 数 据 的 导入 导出 、 数 据 分 析 中 记录 的 存储 等 。 很 多 语言 都 提供 了 对 CSV 
文件 处 理 的 模块 ，Python 模块 csv 提供 了 一 系列 与 CSV 处 理 相 关 的 API。 


e reader(csvfile[，dialect="excel"][，fmtparam]) ， 主 要 用 于 CSV 文件 的 读 取 ， 返 回 一 
个 reader 对 象 用 于 在 CSV 文件 内 容 上 进行 行 迭 代 。 


参数 csvfile ， 需 要 是 支持 迭代 (lterator) 的 对 象 ， 通 常 对 文件 (file) 对 象 或 者 列表 
(list) 对 象 都 是 适用 的 ， 并 且 每 次 调用 next() 方法 的 返回 值 是 字符 串 〈string) ; 参数 
dialect 的 默认 值 为 excel， 与 exce| 兼容 ; fmtparam 是 一 系列 参数 列表 ， 主 要 用 于 需 
要 履 盖 默认 的 Dialect 设置 的 情形 。 当 dialect 设置 为 exdel 的 时 候 ， 默 认 pialect 
的 值 如 下 : 


class excel(Dialect) : 
delimiter = "',"' 
quotechar = "'"" 用 团 





doublequote = True 


delimiter 后 i 





skipinitialspace = False 
lineterminator = '\r\n' 
quoting = QUOTE_MINIMAL 





前 加 引号 ，QUOTE_MINIMAL 表示 仅 当 一 个 字段 包含 引 


2 


或 时 候 才 加 引号 


@ csv.write(csvfile, dialect="excel", **fmtparams) ， 用 于 写 入 CSV 文件 。 参 数 同上 。 
例子 : 


with open("data.csv", "wb") as csvfile: 

csvwriter = csv.writer(csvfile, dialect="excel", delimiter="|", quotechar="'"", 
quoting=csv .QUOTE_MINIMAL) 

csvwriter .writerow(["1/3/09 14:44", "'Product1'", "1200''", "Visa", "Gouya"]) 


| 


@ csv.DictReader(csvfile, filenames=None, restkey=None, restval=None, dialect="excel", 
x*args，**kwargs) ， 同 reader() 方法 类 似 ， 不 同 的 是 将 读 入 的 信息 映射 到 一 个 字典 中 
去 ， 其 中 字典 的 key 由 fieldnames 指定 ， 该 值 省 略 的 话 将 使 用 CSV 文件 第 一 行 的 数据 
作为 key 值 。 如 果 读 入 行 的 字典 的 个 数 大 于 fieldnames 中 指定 的 个 数 ， 多 余 的 字段 名 将 
会 存放 在 restkey 中 ， 而 restval 主要 用 于 当 读 取 行 的 域 的 个 数 小 于 fieldnames 的 时 候 ， 
它 的 值 将 会 被 用 作 剩 下 的 key 对 应 的 值 。 


@ csv.Dictwriter(csvfile, fieldnames, restval='', extrasaction='raise', 


dialect='excel', *args, **kwargs) ， 用 于 支持 字典 的 写 入 和 


import csv 
# DictWriter 
withnopenG@ test secsv 9 wh asecsv tlle: 
# 设置 列 名 称 
FIELDS = [Transaction date”, "Product", "Price”, “Payment Type,”| 
writer = csv.DictWwriter(csv_file, fieldnames=FIELDS) 
# 写 入 列 名 称 
writer.writerow(dict(zip(FIELDS, FIELDS))) 
c= ranaction i dater: VI/2/O0 er 7 product nproductlr pricer M260r 
"Payment_Type": "Mastercard"} 
# 写 入 一 行 Writer.writerow(d ) 
withiopen(G testsesv yo rb as csvatler 
for d in csv.DictReader(csv_file): 


print(d) 
4 outputncrom roduet EPEOUUCETE mansaceionndate me /2/A0ON Ol Pe 
e": "1200", "Payment_Type": "Mastercard"} 


了 | 


CSYV 模块 使 用 非常 简单 ， 基 本 可 以 满足 大 部 分 需求 。 但 是 csv 模块 对 于 大 型 CSV 文件 的 处 理 
无 能 为 力 。 这 种 情况 下 就 需要 考虑 其 他 解决 方案 了 ，pandas 模块 便 是 较 好 的 选择 。 


Pandas 即 Python Data Analysis Library， 是 为 了 解决 数据 分 析 而 创建 的 第 三 方 工具 ， 它 不 仅 
提供 了 丰富 的 数据 模型 ， 而 且 支 持 多 种 文件 格式 处 理 ， 包 括 CSV、HDF5、HTML 等 ， 能 够 提 
供 高 效 的 大 型 数据 处 理 。 其 支持 的 两 种 数据 结构 Series 和 DataFrame 一 一 是 数据 处 理 的 
基础 。 





。 Series : 它 是 一 种 类 似 数组 的 带 索 引 的 一 维 数据 结构 ， 支 持 的 类 型 与 NumPy 兼容 。 如 果 
不 指定 索引 ， 默 认为 0 到 N-1。 通 过 obj.values() 和 obj.index() 可 以 分 别 获 取 值 和 
索引 。 当 给 Series 传递 一 个 字典 的 时 候 ，Series 的 索引 将 根据 字典 中 的 键 排序 。 如 果 传 
入 字典 的 时 候 同 时 指定 了 index 参数 ， 当 index 与 字典 中 的 键 不 匹配 的 时 候 ， 会 出 现 数据 
丢失 的 情况 ， 标 记 为 NaN 。 


在 pandas 中 用 函数 isnull() 和 notnull() 来 检测 数据 是 否 丢 失 。 


>>>70D]1 > Senies(LD NN ao (92 3 lindex= a be .ed 


>>> obj1 # value 和 index 一 一 匹配 
a 中 

b a 

C 位 页 2 

d 3 


dtype: object 

>>>°00]2 ==>Series((@ Book "python Aucnorme nanaeSBNe IOlio34 PICe :25 
Hindex=[ book Autnon TSBM Prace Wl 

>>> obj2.isnull() 


book True # 指定 的 index 与 字典 的 键 不 匹配 ， 发 生 数 据 丢失 
Author False 

ISBM True # 指定 的 index 与 字典 的 键 不 匹配 ， 发 生 数 据 丢 失 
Price False 

dtype: bool 


ee = 二 


。 DataFrame : 类 似 于 电子 表格 ， 其 数据 为 排 好 序 的 数据 列 的 集合 ， 每 一 列 都 可 以 是 不 同 
的 数据 类 型 ， 它 类 似 于 一 个 二 维 数据 结构 ， 支 持 行 和 列 的 索引 。 和 Series 一 样 ， 索 引 会 
自动 分 配 并 且 能 根据 指定 的 列 进行 排序 。 使 用 最 多 的 方式 是 通过 一 个 长 度 相 等 的 列表 的 
字典 来 构建 。 构 建 一 个 DataFrame 最 常用 的 方式 是 用 一 个 相等 长 度 列表 的 字典 或 
NumpPy 数组 。DataFrame 也 可 以 通过 columns 指定 序列 的 顺序 进行 排序 。 


>>>"data = OrderDate [1=6=10%", 123=10 "2=9=10" 0 226=10 3=15=10"], "R 
egron liEase .Central ee Central ee West Easte ll Ren ones Kinvelb., 
Jardine Ge Sorvinouy 

>>> DataFrame(data，colLumns=["OracleDate"，"Region'"，"Rep"]) # 通过 字典 构建 ， 按 照 COl 
umns 指定 的 顺序 排序 


OrderDate Region Rep 


0 6= 直 Q East Jones 

al 1-23-10 Central Kivell 
2 2-9-10 Central Jardine 
3 2-26-10 West Gill 

4 3-15-10 East Sorvino 


加 | 


Pandas 中 处 理 CSV 文件 的 函数 主要 为 read csv() 和 to_csv() 这 两 个 ， 其 中 read_csv() 
读 取 CSV 文件 的 内 容 并 返回 DataFram ， to_csv() 则 是 其 逆 过 程 。 两 个 函数 都 支持 多 个 参 
数 ， 其 参数 众多 且 过 于 复杂 。 


。 指定 读 取 部 分 列 和 文件 的 行 数 


>>> df = pd.read csv("SampleData.csv", nrows=5, usecols=["OrderDate", "Item", "Tot 
a | 


方法 read_csv() 的 参数 nrows 指定 读 取 文件 的 行 数 ， usecols 指定 所 要 读 取 的 列 的 列 
名 ， 如 果 没 有 列 名 ， 可 直接 使 用 索引 0、1、...、n -1。 上 述 两 个 参数 对 大 文件 处 理 非常 有 
用 ， 可 以 避免 读 入 整个 文件 而 只 选取 所 需要 部 分 进行 读 取 。 


。 设置 CSV 文件 与 excel 兼容 。 dialect 参数 可 以 是 String 也 可 以 是 csv.Dialect 的 实 
例 。 如 果 文 件 格 式 改 为 使 用 "|" 分 隔 符 ， 则 需要 设置 dialect 相关 的 参 
数 。 error_bad_lines 设置 为 False ， 当 记录 不 符合 要 求 的 时 候 ， 如 记录 所 包含 的 列 数 
与 文件 列 设 置 不 相等 时 可 以 直接 忽略 这 些 列 。 


>>> dia = CSV,excel() 
>>> dia.delimiter = "|" 
>>> pd.read_csv("SD.csv") 


e 对 文件 进行 分 块 处 理 并 返回 一 个 可 迭代 的 对 象 。 分 块 处 理 可 以 避免 将 所 有 的 文件 载 入 内 
容 ， 仅 在 使 用 的 时 候 读 入 所 需 内 容 。 参 数 chunksize 设置 分 块 的 文件 行 数 ，10 表示 每 一 
块 包 含 10 个 记录 。 将 参数 iterator 设置 为 True 时 ， 返 回 值 为 ”TextFileReader ， 它 
是 一 个 迭代 对 对 象 。 


>>> reader = pd.read table("SampleData.csv", chunksize=10, iterator=True) 
>>> iter(reader).next() 


e 当 文 件 格 式 相 似 的 时 候 ， 支 持 多 个 文件 合并 处 理 。 


>>> fileist = os.1listdir("test") 

>>> print(filelst) # 同时 存在 3 个 格式 相同 的 文件 
>>> os.chdir("test") 

>>> dfs = [pd.read csv(f) for f in fileist] 

>>> total df = pd.concat(dfs) 

>>> total_df 


在 处 理 CSV 文件 上 ， 特 别 是 大 型 CSV 文件 ，pandas 不 仅 能 够 做 到 与 csv 模块 兼容 ， 更 重要 
的 是 其 CSV 文件 以 DateFrame 的 格式 返回 ， ns 0 告 构 提 供 了 非常 下 入 站 2 
方法 ， 同 时 pandas 支持 文件 的 分 块 和 合并 处 理 ， 非 常 ， 其 底层 很 多 算法 采用 Cython 实 

现 运 行 速度 较 快 。 


建议 43 : 一 般 情 况 使 用 ElementTree 解析 XML 


xml.dom.minidom 和 xml.sax 大 概 是 Python 中 解析 XML 文件 最 广为人知 的 两 个 模块 了 ， 原 
因 一 是 这 两 个 模块 自 Python2.0 以 来 就 成 为 Python 的 标准 库 ; 二 是 网 上 关于 这 两 个 模块 的 使 
用 方面 的 资料 最 多 。 作 为 主要 解析 XML 方法 的 两 种 实现 ，DOM 需要 将 整个 XML 文件 加 载 到 
内 存 中 并 解析 为 一 棵 树 ， 虽 然 使 用 较为 简单 ， 但 占用 内 存 较 多 ， 性 能 方面 不 占 优势 ， 并 且 不 

够 Pythonic ; 而 SAX 是 基于 事件 驱动 的 ， 虽 不 需要 全 部 装 入 XML 文件 ， 但 其 处 理 过 程 却 较 


为 复杂 。 实 际 上 Python 中 对 XML 的 处 理 还 有 更 好 地 选择 ，ElementTree 便 是 其 中 一 个 ， 一 
般 情 况 下 使 用 ElementTree 便 已 足够 。 它 从 Python2.5 开始 成 为 标准 模块 ，cElementTree 是 
ElementTree 的 Cython 实现 ， 速 度 更 快 ， 消 耗 内 存 更 少 ， 性 能 上 更 占 优 势 ， 在 实际 使 用 过 程 
中 应 该 尽量 优先 使 用 cElementTree。 两 者 使 用 方式 上 完全 兼容 。ElementTree 在 解析 XML 
文件 上 具有 以 下 特性 : 


e 使 用 简单 。 它 将 整个 XML 文件 以 树 的 形式 展示 ， 每 一 个 元 素 的 属性 以 字典 的 形式 表示 ， 
非常 方便 处 理 。 

。 内 存 上 消耗 明显 低 于 DOM 解析 。 由 于 ElementTree 底层 进行 了 一 定 的 优化 ， 并 且 它 的 
iterparse 解析 工具 支持 SAX 事件 驱动 ， 能 够 以 迭代 的 形式 返回 XML 部 分 数据 结构 ， 从 
而 避免 将 整个 XML 文件 加 载 到 内 存 中 ， 因 此 性 能 上 更 优化 ， 相 比 于 SAX 使 用 起 来 更 为 
简单 明了 。 

。 支持 XPath 查询 ， 非 常 方便 获取 任意 节点 的 值 。 


一 般 情 况 指 的 是 : XML 文件 大 小 适中 ， 对 性 能 要 求 并 非 非常 严格 。 如 果 在 实际 过 程 中 需要 处 
理 的 XML 文件 大 小 在 GB 或 近似 GB 级 别 ， 第 三 方 模块 |xml 会 获得 较 优 的 处 理 结果 。 "使 用 
由 Python 编写 的 lxml 实现 高 性 能 XML 解析 “。 


模块 ElementTree 主要 存在 两 种 类 型 ElementTree 和 Element， 它 们 支持 的 方法 以 及 对 应 的 
使 用 示例 如 下 所 示 : 


ElementTree 主要 的 方法 和 使 用 示例 
e getroot() : 返回 Xml 文档 的 根 节点 


>>> import xml.etree.ElementTree as ET 

>>> tree = ET.ElementTree(file = "test.xml") 
>>> root = tree.getroot() 

>>> print(root) 

>>> print(root.tag) 


e find(match)、findall(match)、findtext(match，default=None) : 同 Element 相关 的 方法 类 
似 ， 只 是 从 根 节点 开始 搜索 


>>> for i in root.findall("system/purpose"): 
print(i.text) 

>>> print(root.findtext("system/purpose")) 

>>> print(root.find("systempurpose") 


e iter(tag=None) : 从 Xml 根 节点 开始 ， 根 据 传 入 的 元 素 的 tag 返回 所 有 的 元 素 集 合 的 迭 
代 器 


>>> for i in tree.iter(tag = "command"): 
print(i.text) 


e iterfind(match) : 根据 传 入 的 tag 名 称 或 者 path 以 迭代 器 的 形式 返回 所 有 的 子 元 素 


>>> for i in tree.iterfind("system/purpose"): 
print(i.text) 


Element 主要 的 方法 和 使 用 示例 
。 tag : 字符 串 ， 用 来 表示 元 素 所 代表 的 名 称 
>>> print(root[1].tag) # 输出 System 
e text : 表示 元 素 所 对 应 的 具体 值 


>>> print(root[1].text) # 输出 空 囊 


© attrib : 用 字典 表示 的 元 素 的 属性 


>>> print(root[1].attrib) Hb lattorm alxaunanmec :anaxtest 小 


© get(key, default=None) : 根据 元 素 属 性 字典 的 key 值 获取 对 应 的 值 ， 如果 找 不 到 对 应 的 
属性 ， 则 返回 default 


>>> print(root[1].attrib.get("platform")) # 输出 aix 


e items() : 将 元 素 属 性 以 (名称 ， 人 和 值 ) 的 形式 返回 


>>> print(root[1].items()) sl Laciorme aux name arxtest 
e keys() : 返回 元 素 属 性 的 key 值 集合 


>>> print(root[1].keys()) # 输出 ["platform", "name"] 


e。 find(match) : 根据 传 入 的 tag 名称 或 者 path 返回 第 一 个 对 应 的 element 对 象 ， 或 者 返 
回 None 


e findall(match) : 根据 传 入 的 tag 名 称 或 者 path 以 列表 的 形式 返回 所 有 符合 条 件 的 元 素 


e findtext(match，default=None) : 根据 传 入 的 tag 名 称 或 者 path 返回 第 一 个 对 应 的 
element 对 象 对 应 的 值 ， 即 text 属性 ， 如 果 找 不 到 则 返回 default 的 设置 


e list(elem) : 根据 传 入 的 元 素 的 名 称 返回 其 所 有 的 子 节点 


>>> for i in list(root.findall("system/system type")): 
print(i.text) # 输出 virtual virtual 


elementree 的 iterparse 工具 能 够 避免 将 整个 XML 文件 加 载 到 内 存 ， 从 而 解决 当 读 入 文件 过 
大 内 存 而 消耗 过 多 的 问题 。iterparse 返回 一 个 可 以 迭代 的 由 元 组 (时间 ， 元 素 ) 组 成 的 流 对 
象 2 支持 两 个 参数 source 和 events ， 其 中 event 有 4 种 选择 

start 、 end 、 startns 和 endns (默认 为 end) ， 分 别 与 SAX 解析 的 


startElement 、 endElement 、 startElementNS 和 endElementNS 一 一 对 应 。 








iterparse 的 使 用 示例 : 


>>> count = 0 


>>> for event，elem in ET.iterparse("test.xml"): # 对 iterparse 的 返回 值 进 行 先 代 
If event == "end": 
If elem,tag == "userid": 


count += 工 
elem.clear() 
>>> print(count) 


建议 44 : 理解 模块 pickle 优 劣 


序列 化 的 场景 很 常见 ， 如 : 在 磁盘 上 保存 当前 程序 的 状态 数据 以 便 重 启 的 时 候 能 够 重新 加 
载 ; 多 用 户 或 者 分 布 式 系统 中 数据 结构 的 网 络 传输 时 ， 可 以 将 数据 序列 化 后 发 送 给 一 个 可 信 
网 络 对 端 ， 接 收 者 进行 反 序 列 化 后 便 可 以 重新 恢复 相同 的 对 象 ; session 和 cache 的 存储 


A 


村 “。 


序列 化 ， 简 单 地 说 就 是 把 内 存 中 的 数据 结构 在 不 丢失 其 身份 和 类 型 信息 的 情况 下 转换 成 对 象 
的 文本 或 二 进 制 表示 的 过 程 。 对 象 序列 化 后 的 形式 经 过 反 序 列 化 过 程 应 该 能 恢复 原 有 对 象 。 
Python 中 有 很 多 支持 序列 化 的 模块 ， 如 pickle 、 json 、 marshal 和 shelve 等 。 

pickle 估计 是 最 通用 的 序列 化 模块 了 ， 它 还 有 个 C 语言 的 实现 cPickle， 相 比 pickle 来 说 具有 
较 好 的 性 能 ， 其 速度 大 概 是 pickle 的 1000 倍 ， 因 此 在 大 多 数 应 用 程序 中 应 该 优先 使 用 


cPickle ( 注 : cPickle 除了 不 能 被 继承 之 外 ， 它 们 两 者 的 使 用 基本 上 区 别 不 大 ) 。pickle 中 最 
主要 的 两 个 函数 对 为 dump() 和 1load() ， 分 别 用 来 进行 对 象 的 序列 化 和 反 序 列 化 。 


© pickle.dump(obj，file[，protocol]) : 序列 化 数据 到 一 个 文件 描述 符 〈 一 个 打开 的 文 
件 、 套 接 字 等 ) 。 参 数 obj 表示 需要 序列 化 的 对 象 ， 包 括 布尔 、 数 字 、 字 符 串 、 字 节 数 


组 、None、 列 表 、 元 组 、 字 典 和 集合 等 基本 数据 类 型 ， 此 外 pickle 还 能 够 处 理 循 环 ， 递 
归 引 用 对 象 、 类 、 郊 数 以 及 类 的 实例 等 。 参 数 file 支持 write() 方法 的 文件 句柄 ， 可 以 
为 丰 实 的 文件 ， 也 可 以 是 stringI0 对 象 等 。protocol 为 序列 化 使 用 的 协议 版 本 ，0 表示 
ASCII 协议 ， 所 序列 化 的 对 象 使 用 可 打印 的 ASCII 码 表示 ; 1 表示 老式 的 二 进 制 协议 ; 2 
表示 2.3 版 本 引入 的 新 二 进 制 协议 ， 比 以 前 的 更 高 效 。 其 中 协议 0 和 1 兼容 老 版 本 的 
Python。protocol 默认 值 为 0。 

load(file) : 表示 把 文件 中 的 对 象 恢复 为 原来 的 对 象 ， 这 个 过 程 也 被 称 为 反 序 列 化 。 


>>> import cPickle as pickle 


>>>>myidata = name Python type, :Languagey > Version ,2715 小 
>>> fp = open("picklefile.dat", "wb") # 打开 要 写 入 的 3 

>>> pickle.dump(my_data, fp) # 使 用 dump 进行 序列 化 

>>> fp.close() 

>>> 


>>> fp = open("picklefile.dat", "rb") 
>>> out = pickle.load(fp) # 反 序列 化 
>>> print(out) 
>>> fp.close() 


pickle 之 所 以 能 成 为 通用 的 序列 化 模块 ， 与 其 良好 的 特性 是 分 不 开 的 ， 总 结 为 以 下 几 点 : 


接口 简单 ， 容 易 使 用 。 使 用 dump() 和 load() 便 可 轻易 实现 序列 化 和 反 序 列 化 。 
pickle 的 存储 格式 具有 通用 性 ， 能 够 被 不 同 平台 的 Python 解析 器 共享 ， 比 如 Linux 下 序 
列 化 的 格式 文件 可 以 在 Windows 平台 的 Python 解析 器 上 进行 反 序 列 化 ， 兼 容 性 较 好 。 
支持 的 数据 类 型 广泛 。 如 数字 、 人 ` 值 、 字 符 串 ， 只 包含 可 序列 化 对 象 的 元 组 、 字 典 、 
列表 等 ， 非 秦 套 的 函数 、 类 以 及 通过 类 的 _ dict ”或 者 _getstate () 可 以 返回 序列 
化 对 象 的 实例 等 。 

pickle 模块 是 可 以 扩展 的 。 对 于 实例 对 象 ，pickle 在 还 原 对 象 的 时 候 一 般 是 不 调用 
_init () 函数 的 ， 如 果 要 调用 _init () 进行 初始 化 ， 对 于 古典 类 可 以 在 类 定义 中 
提供 _getinitargs () 函数 ， 并 返回 一 个 元 组 ， 当 进行 unpickle 的 时 候 ，Python 就 会 
自动 调用 _init () ， 并 把 _getinitargs_() 中 返回 的 元 组 作为 参数 传递 给 
ne ? 而 对 于 新 式 类 ， 可 以 提供 __getnewargs_ __() 来 提供 对 象 生 成 时 候 的 参 

数 ， 在 unpickle 的 时 候 以 class._ new (class,，*arg) on 建 对 象 。 对 于 不 可 序列 
化 的 对 象 ， 如 Sockets、 文 件 句柄 、 数 据 库 连接 等 ， 也 可 以 通过 实现 pickle 协议 来 解决 这 
些 巨 献 ， 主 要 是 通过 特殊 方法 ”getstate () 和 ”setstate () 来 返回 实例 在 被 
pickle 时 的 状态 。 


Import cPickle as pickle 
class TextReader : 
def °° AMNM1lE (Self, filename): 
self.filename = filename # 文件 名 称 
self.file = open(filename) # 打开 文件 的 句柄 
self.postion = self.file.tell() # 文件 的 位 置 


def readline(self): 
line = self.file.readline() 
self.postion = self.file.tell() 
noc ine, 
neuwni None 
if line.endswith("\n"): 
line = line[:-1] 
return "{}: {}".format(self.postion, line) 


def _ getstate (self): # 记录 文件 被 pijckle 时 候 的 状态 
被 pickle 时 的 字典 信息 





state = self. dict .copy() # 获 
QUelEsEateiesaael 
returnestate 


def _ setstate (self, state): # 设置 反 序列 化 后 的 状态 
self. dict .update(state) 
file = open(self.filename) 
self.file = file 


reader = TextReader("zen.text") 

print(reader.readline()) 

print(reader.readline()) 

s = pickle.dumps(reader ) # 在 dumps 的 时 候 会 默认 调用 getstate 
new_reader = pickle.1loads(s) # 在 loads 的 时 候 会 默认 调用 setstate 
print(new_reader.readline()) 


。 能 够 自动 维护 对 象 间 的 引用 ， 如 果 一 个 对 象 上 存在 多 个 引用 ，pickle 后 不 会 改变 对 象 间 的 
引用 ， 并 且 能 够 自动 处 理 循环 和 递归 引用 。 


>>> a = Bea oil 
>>> b = a # b 引用 对 象 a 
>>> b.append("c") 

>>> p = pickle.dumps((a, b)) 
>>> al, bi = pickle.loads(p) 





>>> al 

[ean el es | 

>>> bi 

Ea eee Go 

>>> al.append("d") # 反 序列 化 对 al 对 象 的 修改 仍然 会 影响 到 bi 
>>> bi 


[ea Wo We Welw 


但 pickle 使 用 也 存在 以 下 一 些 限制 : 


。 pickle 不 能 保证 操作 的 原子 性 。pickle 并 不 是 原子 操作 ， 也 就 是 说 在 一 个 pickle 调用 中 如 
果 发 生 异 常 ， 可 能 部 分 数据 已 经 被 保存 ， 另 外 如 果 对 象 处 于 深 递 归 状 态 ， 那 么 可 能 超出 
Python 的 最 大 递归 深度 。 递 归 深 度 可 以 通过 sys.setrecursionlimit() 进行 扩展 。 

e pickle 存在 安全 性 问题 。Python 的 文档 清晰 地 表明 它 不 提供 安全 性 保证 ， 因 此 对 于 一 个 
从 不 可 信 的 数据 源 接收 到 的 数据 不 要 轻易 进行 反 序 列 化 。 由 于 loads() 可 以 接收 字符 串 
作为 参数 ， 精 心 设计 的 字符 串 给 入 侵 提 供 了 一 种 可 能 。 在 Python 解释 器 中 输入 代码 

pickle.loads("cos\nsystem\n(S'dir\ntR.") 便 可 以 查看 当 前 目 录 下 所 有 文件 。 可 以 将 
dir 替换 为 其 他 更 具 破坏 性 的 命令 。 如 果 要 进一步 提高 安全 性 ， 用 户 可 以 通过 继承 类 
pickle.Unpickler 并 重 写 find_class() 方法 来 实现 

。 pickle 协议 是 Python 特定 的 ， 不 同 语言 之 间 的 兼容 性 难以 保障 。 用 Python 创建 的 
pickle 文件 可 能 其 他 语言 不 能 使 用 。 





建议 45 : 序列 化 的 另 一 个 不 错 的 选择 一 一 JSON 

JSON (JavaScript Object Notation ) 是 一 种 轻 量 级 数据 交换 格式 ， 它 基于 JavaScript 编程 语 
言 的 一 个 子 集 ， 于 1999 年 12 月 成 为 一 个 完全 独立 于 语言 的 文本 格式 。 其 格式 使 用 了 许多 其 
他 流行 编程 的 约定 ， 简 单 灵 活 ， 可 读 性 和 互 操作 性 较 强 、 多 于 解析 和 使 用 。 


Python 中 有 一 系列 的 模块 提供 对 JSON 格式 的 支持 ， 如 

simplejson 、 cjson 、 yajl 、 uson ， 自 Python2.6 后 又 引入 了 标准 库 JSON。 简 单 来 说 
cjson 和 ujson 是 用 C 来 实现 的 ， 速 度 较 快 。 据 cjson 的 文档 表述 : 其 速率 比 纯 Python 
实现 的 json 模块 大 概要 快 250 倍 。 yajl 是 Cpython 版 本 的 JSON 实现 ， 而 simplejson 
和 标准 库 JSON 本 质 来 说 无 多 大 区 别 ， 实 际 上 Python2.6 中 的 json 模块 就 是 simplejson 减 
去 对 Python2.4、Python2.5 的 支持 以 充分 利用 最 新 的 兼容 未 来 的 功能 。 不 过 相对 于 
simplejson ， 标 准 库 更 新 相对 较 慢 。 在 实际 应 用 过 程 中 将 这 两 者 结合 较 好 的 做 法 是 采用 如 下 
import 方法 : 


(IEW 

import simplejson as json 
except ImportError: 

import json 


Python 的 标准 库 JSON 提供 的 最 常用 的 方法 与 pickle 类 似 ，dump/dumps 用 来 序列 

化 ，1oad/loads 用 来 反 序 列 化 。 需 要 注意 json 默认 不 支持 非 ASCll-based 的 编码 ， 如 load 
方法 可 能 在 处 理 中 文字 符 时 不 能 正常 显示 ， 则 需要 通过 encoding 参数 指定 对 应 的 字符 编码 。 
在 序列 化 方面 ， 相 比 pickle，JSON 具有 以 下 优势 : 


@ 使 用 简单 ， 支 持 多 种 数据 类 型 。JSON 文档 的 构成 非常 简单 ， 仅 存在 以 下 两 大 数据 结 
构 : 


o 名 称 / 值 对 的 集合 。 在 各 种 语言 中 ， 它 被 实现 为 一 个 对 象 、 记 录 、 结 构 、 字 典 、 散 列 


表 、 键 列表 或 关联 数组 。 
o 值 的 有 序列 表 。 在 大 多 数 语 言 中 ， 它 被 实现 为 数组 、 向 量 、 列 表 或 序列 。 在 Python 
中 对 应 支持 的 数据 类 型 包括 字典 、 列 表 、 字 符 串 、 整 数 、 浮 点 数 、True、False、 
None 等 。JSON 中 数据 结构 和 Python 中 的 转换 并 不 是 完全 一 一 对 应 ， 存 在 一 定 的 
。 存储 格式 可 读 性 更 为 友好 ， 容 易 修 改 。 相 比 于 pickle 来 说 ，json 格式 更 加 接近 程序 员 的 
思维 ， 阅 读 和 修改 上 要 容易 得 多 。 dumps() 函数 提供 了 一 个 参数 indent 使 生成 的 json 
文件 可 读 性 更 好 ，0 意味 着 “每 个 值 单独 一 行 " ; 大 于 0 的 数字 意味 着 “每 个 值 单独 一 行 并 
且 使 用 这 个 数字 的 空格 来 缩 进 诅 套 的 数据 结构 "。 但 需要 注意 的 是 ， 这 个 参数 是 以 文件 大 
小 变 大 为 代价 的 。 


。 json 支持 跨 平 台 跨 语 言 操作 ， 能 够 轻易 被 其 他 语言 解析 ， 如 Python 中 生成 的 json 文件 
可 以 轻易 使 用 JavaScript 解析 ， 互 操作 性 更 强 ， 而 pickle 格式 的 文件 只 能 在 Python 语 
言 中 支持 。 此 外 json 原生 的 JavaScript 支持 ， 客 户 端 浏览 器 不 需要 为 此 使 用 额外 的 解释 
器 ， 特 别 适用 于 Web 应 用 提供 快速 、 紧 姿 、 方 便 地 序列 化 操作 。 此 外 ， 相 比 于 pickle， 
json 的 存储 格式 更 为 紧凑 ， 所 占 空间 更 小 。 


e。 具有 较 强 的 扩展 性 。json 模块 还 提供 了 编码 (JSONEncoder) 和 解码 类 
(JSONDecoder) 以 便 用 户 对 其 默认 不 支持 的 序列 化 类 型 进行 扩展 。 


e。 json 在 序列 化 datetime 的 时 候 会 抛 出 TypeError 异常 ， 这 是 因为 json 模块 本 身 不 支持 
datetime 的 序列 化 ， 因 此 需要 对 json 本 身 的 JSONEncoder 进行 扩展 。 有 多 种 方法 可 以 
实现 : 


import datetime 
from time import mktime 
tye 
import simplejson as json 
except ImportError: 
import json 


class DateTimeEncoder(json.JSONEncoder ) : # 为 JSONEncoder 进行 扩展 
qefmaetaul (self ob 
If isinstance(obj, datetime.datetime): 
return obj.strftime("%Y-%m-%d %H:%M:%S") 
elif isinstance(obj, date): 
return obj.strftime("%Y-%m-%d") 
return json.JSONEncoder.default(self, obj) 


d = datetime.datetime.now() 


print(json.dumps(d, cls=DateTimeEncoder)) # 使 用 cls 指定 编码 器 的 名 称 


Python 中 标准 模块 json 的 性 能 比 pickle 与 cPickle 稍 逊 。 如 果 对 序列 化 性 能 要 求 非常 高 的 场 
景 ， 可 以 使 用 cPickle 模块 。 


建议 46 : 使 用 traceback 获取 栈 信 


面 对 异 常 开 发 人 员 最 希望 看 到 的 往往 是 异常 发 生 时 候 的 现场 信息 ， traceback 模块 可 以 满足 
这 个 需求 ， 它 会 输出 完整 的 栈 信息 。 


except IndexError as ex: 
print( "Sorry Exception oceured, vouraccessedranielement routrofrrange) 
print(ex) 
traceback.print_exc() 


程序 会 输出 异常 发 生 时 候 完 整 的 栈 信 息 ， 包 括 调用 顺序 、 异 常 发 生 的 语句 、 错 误 类 型 等 。 


traceback.print_exc() 方法 打印 出 的 信息 包括 3 部 分 : 错误 类 型 (IndexError) 、 错 误 对 应 
的 值 (list index out of range) 以 及 具体 的 trace 信息 ， 和 包括 文件 名 、 具 体 的 行 号 、 郊 数 名 以 
及 对 应 的 源 代码 。 Traceback 模块 提供 了 一 系列 方法 来 获取 和 显示 蜡 常 发 生 时 候 的 trace 相 
关 信 息 : 


ee traceback.print_exception(type，value，traceback[，Limit[，file]]) ， 根 据 limit 的 设置 
打印 栈 信 息 ，file 为 None 的 情况 下 定位 到 sys.stderr ， 否 则 则 写 入 文件 ; 其 中 type、 
value、traceback 这 3 个 参数 对 应 的 值 可 以 从 sys.exc_info() 中 获取 。 

@ traceback.print_ 和 file]]) ， 为 print_exception() 函数 的 缩写 ， 不 需要 传 
入 type、value、traceback 这 3 个 参数 。 

® traceback.format exc([l1imit]) ， 与 print_exec() 类 似 ， 区 别 在 于 返回 形 式 为 字符 囊 ° 

e@ traceback.extract_stack([file，[limit]]) ， 从 当前 栈 帧 中 提取 trace 信息 。 


可 以 参看 Python 文档 获取 更 多 关于 traceback 所 提供 的 抽取 、 格 式 化 ee 印 程序 运行 时 候 
的 栈 跟踪 信息 的 方法 。 本 质 上 模块 traceback 获取 异常 相关 的 数据 都 是 通过 sys.exc_info() 
函数 得 到 的 。 当 有 异常 发 生 的 时 候 ， 该 函数 以 元 组 的 形式 返回 (type, value, traceback) ， 
其 中 type 为 异常 的 类 型 ，value 为 异常 本 身 ，traceback 为 异常 发 生 时 候 的 调用 和 堆栈 信息 ， 
它 是 一 个 traceback 对 象 ， 对 象 中 包含 出 错 的 行 数 、 位 置 等 数据 。 


tb_type, tb_val, exc_tb = sys.exc_info() 
for filename, linenum, funcname, source in traceback.extract_tb(exc_tb): 
print("%-23s:%s '%s' in %s()" % (filename, linenum, source, funcname)) 


实际 上 除了 traceback 模块 本 身 ，inspect 模块 也 提供 了 获取 traceback 对 象 的 接 

口 ， inspect.trace([context]) 可 以 返回 当前 帧 对 象 以 及 异常 发 生 时 进行 捕获 的 帧 对 象 之 间 
的 所 有 栈 帧 记录 ， 因 此 第 一 个 记录 代表 当前 调用 对 象 ， 最 后 一 个 代表 异常 发 生 时 候 的 对 象 。 
其 中 每 一 个 列表 元 素 都 是 一 个 由 6 个 元 素 组 成 的 元 组 : (frame 对 象 ， 文 件 名 ， 当 前 行 号 ， 
函数 名 ， 源 代码 列表 ， 当 前 行 在 源 代码 列表 中 的 位 置 ) 。 


此 外 如 果 想 进一步 追踪 函数 调用 的 情况 ， 还 可 以 通过 inspect 模块 的 inspect.stack() 函数 查 
看 遂 数 层级 调用 的 栈 相 关 信 息 。 因 此 ， 当 异常 发 生 的 时 候 ， 合 理 使 用 上 述 模块 中 的 方法 可 以 
快速 地 定位 程序 中 的 问题 所 在 。 


建议 47 : 使 用 logging 记录 日 志 信 息 


仅仅 将 信息 输出 到 控制 台 是 远 远 不 够 的 ， 更 为 常见 的 是 使 用 日 志保 存 程序 运行 过 程 中 的 相关 
信息 ， 如 运行 时 间 、 描 述 信息 以 及 错误 或 者 异常 发 生 时 候 的 特定 上 下 文 信息 。 Ra 中 自 带 
的 logging 模块 提供 了 日 志 功 能 ， 它 将 logger 的 level 分 为 5 个 级 别 ， 可 以 通 
Logger.setLevel(1v1) 来 设置 ， 其 中 DEBUG 为 最 低级 别 ，CRITICAL 为 最 高 级 别 ， 黑 认 的 
级 别 为 WARNING 。 


Level 使 用 情形 
DEBUG 详细 的 信息 ， 在 追踪 问题 的 时 候 使 用 
INFO 正常 的 信息 
WARNING > 见 的 问题 发 生 ， 或 者 将 要 发 生 ， 如 磁盘 空间 低 等 ， 但 不 影响 程 
ERROR 由 于 某 些 严重 的 问题 ， 程 序 中 的 一 些 功能 受到 影响 


CRITICAL 严重 的 错误 ， 或 者 程序 本 身 不 能 够 继续 运行 
logging lib 包含 以 下 4 个 主要 对 象 : 


。 logger : logger 是 程序 信息 输出 的 接口 ， 它 分 散在 不 同 的 代码 中 ， 使 得 程序 可 以 在 运行 9 
时 候 记 录 相 应 的 信息 ， 并 根据 设置 的 日 志 级 别 或 filter 来 决定 哪些 信息 需要 输出 ， 并 将 这 
些 信息 分 发 到 其 关联 的 handler。 常 用 的 方法 有 

Logger.setLevel() 、 Logger.addHandler() 、 Logger.removeHandler() 、 Logger.addrFilte 
r() 、 Logger.debug() 、 Logger.info() 、 Logger.warning() 、 Logger.error() 、 etLog 
i 

。 Handler : Handler 用 来 处 理 信 息 的 输出 ， 可 以 将 信息 输出 到 控制 台 、 文 件 或 者 网 络 。 可 
以 通过 Logger.addHandler() 来 给 logger 对 象 添加 handler， 常 用 的 handler 有 
StreamHandler 和 FileHandler 类 。StreamHandler 发 送 错误 信息 到 流 ， 而 FileHandler 
类 用 于 向 文件 输出 日 志 信息 ， 这 两 个 handler 定义 在 logging 的 核心 模块 中 。 其 他 的 
handler 定义 在 logging.handles 模块 中 ， 如 HTTPHhandler 、 SocketHandler 。 

e。 Formatter : 决定 log 信息 的 格式 ， 格 式 使 用 类 似 于 %(< dictionary key >)s 的 形式 来 定 
义 ， 如 '%(asctime)s - %(levelname)s - %(message)s' ， 支持 的 key 可 以 在 Python 自 带 
的 文档 LogRecord attributes 中 查看 

。 Filter : 用 来 决定 哪些 信息 需要 输出 。 可 以 被 handler 和 |ogger 使 用 ， 支 持 层 次 关系 ， 比 
如 ， 如 果 设置 了 filter 名 称 为 A.B 的 logger， 则 该 logger 和 其 子 logger 的 信息 会 被 输 
出 ， 如 A.B、A.B.C 


logging.basicConfig([**kwargs]) 提供 对 日 志 系 统 的 基本 配置 ， 默认 使 用 StreamHandler 和 
Formatter 并 添加 到 root logger， 该 方法 自 Python2.4 开始 可 以 接受 字典 参数 ， 支 持 的 字典 参 
数 : 

格式 首 述 
filename 指定 FileHandler 的 文件 名 ， 而 不 是 默认 的 StreamHandler 
filemode 打开 文件 的 模式 ， 同 open 函数 中 的 同名 参数 ， 默 认为 'a 
format 输出 格式 字符 串 


datefmt 日 期 格式 
level 设置 根 logger 的 日 志 级 别 
stream 指定 StreamHandler。 这 个 参数 若 与 lename 冲突 ， 忽 略 stream 


结合 traceback 和 logging， 记 录 程 序 运行 过 程 中 的 异常 : 


Import traceback 
import sys 
import logging 
gLSte = a OC el 
logging.basicConfig( # 配置 日 志 的 输出 方式 及 格式 
level = logging.DEBUG, 
filename = "log.txt", 
filemode = "w", 





format = "%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s % (message)s", 
) 
deff 
gList[5] 
logging.info("[INFO]:calling method g() in f()") # 记录 正常 的 信息 
return g() 
def gl(): 
logging.info("[INFO]:calling method h() in g()") 
return h() 
def h(): 
logging.info("[INFO]:Delete element in gList in h()") 
del gList[2] 
logging.info("[INFO]:calling method i() in h()") 
return 1() 
def 1().: 
logging.info("[INFO]:Append element i to gList in i()") 
gList.append("i") 
print(gList[7]) 
if name == " main _": 
logging.debug("Information during calling f():") 
META 全 
f() 
except IndexError as ex: 
print("Sorry, Exception occured, you accessed an element out of range") 
# traceback.print_exc() 
ty, tv, tb = sys.exc_info() 
logging.error("[ERROR]: Sorry, Exception occured, you accessed an element out 
of range") # 记录 异常 错误 消息 


logging.critical("object info:%s" % ex) 

logging.critical("Error Type:{0}, Error Information:{1}".format(ty, tv)) # 
记录 异常 的 类 型 和 对 应 的 值 

1ogging.critical("".join(traceback ,format_tb(tb) ) ) # 记录 具体 的 trace 信息 

sys.exit(1) 


站 


修改 程序 后 在 控制 台 上 对 用 户 仅 显示 错误 提示 信息 ， 而 开发 人 员 如 果 需 要 debug 可 以 在 日 志 
文件 中 找到 具体 运行 过 程 中 的 信息 。 
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上 面 的 代码 中 控制 运行 输出 到 console 上 用 的 是 print() ， 但 这 种 方法 比较 原始 ，logging 模 
块 提供 了 能 够 同 ee 制 输出 到 console 和 文件 的 方法 : 


console = logging.StreamHandler() 

console.setLevel(logging .ERROR) 

formatter = logging.Formatter("%(name)-12s: %(levelname)-8s %(message)s") 
console.setFormatter(formatter) 

logging.getLogger('').addHandler (console) 


为 了 使 Logging 使 用 更 为 简单 可 控 ，logging 支持 logging.config 进行 配置 ， 支 持 dictConfig 
和 fileConfig 两 种 形式 ， 其 中 fileConfig 是 基于 configparser() 函数 进行 解析 ， 必 须 包 含 的 
内 容 为 [loggers] 、 [handlers] 和 [formatters] ° 


[loggers] 
keys=root 
[logger_root] 
level=DEBUG 
handlers=hand01 
[handlers] 
keys=hand01 


[handler_hand01] 

class=StreamHandler 

level=INFO 

formatter=formo1 

args=(sys.stderr,) 

[formatters] 

keys=formO1 

[formatter_formO1] 

format=%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s 
datefmt=%a, %d %b %Y %H:%M:%S 


关于 logging 的 使 用 ， 还 有 几 点 建议 : 
Ce 


大 只 需要 使 用 以 下 代码 就 可 以 方便 地 使 用 同一 个 logger ， 因 为 它 本 质 上 符合 单 例 模式 : 


import 1ogging 
logging.basicCconfig(level=logging .DEBUG) 
Jogger = logging.getLogger(_ name ) 


。 为 了 方便 地 找 出 问题 所 在 ，logging 的 名 字 建 议 以 模块 或 者 class 来 命名 。Logging 名 称 
遵循 按 "." 划分 的 继承 规则 ， 根 是 root logger ，logger a.b 的 父 logger 对 象 为 a。 


。 Logging 只 是 线程 安全 的 ， 不 支持 多 进程 写 入 同一 个 日 志文 件 ， 因 此 对 于 多 个 ， 需要 
配置 不 同 的 日 志文 件 。 


建议 48 : 使 用 threading 模块 编写 多 线程 程序 


GIL 的 存在 使 得 Python 多 线程 编程 暂时 无 法 充分 利用 多 处 理 器 的 优势 ， 这 种 限制 并 不 意味 着 
我 们 需要 放 育 多 线程 。 的 确 ， 对 于 只 含 纯 Python 的 代码 也 许 使 用 多 线程 并 不 能 提高 运行 速 
浴 ， 但 在 以 下 几 种 情况 ， 如 等 待 外 部 资源 返回 ， 或 者 为 了 提高 用 户 体 验 而 建立 反应 灵活 的 用 
户 界 面 ， 或 者 多 用 户 应 用 程序 中 ， 多 线程 仍然 是 一 个 比较 好 的 解决 方案 。Python 为 多 线程 纺 
程 提供 了 两 个 非常 简单 明了 的 模块 : thread 和 threading 。 


thread 模块 提供 了 多 线程 底层 支持 模块 ， 以 低级 原始 的 方式 来 处 理 和 控制 线程 ， 使 用 起 来 较 
为 复杂 ; 而 threading 模块 基于 thread 进行 包装 ， 将 线程 的 操作 对 象 化 ， 在 语言 层面 提供 了 

富 的 特性 。Python 多 线程 支持 用 两 种 方式 来 创建 线程 : 一 种 通过 继承 Thread 类 ， 重 写 它 
的 run() 方法 (注意 不 是 start() 方法 ) ; 另 一 种 是 创建 一 个 thread.Thread 对 象 ， 在 它 的 初始 
化 函数 ( _ init () ) 中 将 可 调用 对 象 作为 参数 传 入 。 实 际 应 用 中 ， 推 荐 优先 使 用 threading 
模块 而 不 是 thread 模块 。 


。 threading 模块 对 同步 原 语 的 支持 更 为 完善 和 丰富 。 就 线程 的 同步 和 互 扩 来 说 ，thread 模 
块 只 提供 了 一 种 锁 类 型 thread. 和 ， 而 threading 模块 中 不 仅 有 Lock 指令 锁 ， 
RLock 可 重 入 指令 锁 ， 还 支持 条 件 变 量 Condition、 信 号 量 Semaphore、 
BoundedSemaphore 以 及 Event 事件 等 


。 threading 模块 在 主线 程 和 子 线程 交互 上 更 为 友好 ，threading 中 的 join() 方法 能 够 阻塞 当 
前 上 下 文 环境 的 线程 ， 直 到 调用 此 方法 的 线程 终止 或 到 达 指 定 的 timeout (可 选 参 数 ) 。 
利用 该 方法 可 以 方便 地 控制 主线 程 和 子 线程 以 及 子 线程 之 间 的 执行 。 


e thread 模块 不 支持 守护 线程 。thread 模块 中 主线 程 退 出 的 时 候 ， 所 有 的 子 线程 不 论 是 否 
还 在 工作 ， 都 会 被 强制 结束 ， 并 且 没 有 任何 敬告 ， 也 没有 任何 退出 前 的 清理 工作 。 测试 
代码 : 


from thread import Start_new_thread 
Import time 
def myfunc(ar delay): 
print("I wll calculate square of {} after delay for {}".format(a, delay)) 
time.sleep(delay) 
print@ calculate begqnnse ee hy) 
result =a*a 
print(result) 
return result 
start_new thread(myfunc, (2, 5)) 
start_new thread(myfunc, (6, 8)) 
time.sleep(1) 


实际 上 很 多 情况 下 我 们 可 能 希望 主线 程 能 够 等 待 所 有 子 线程 都 完成 时 才 退 出 ， 这 时 应 该 
使 用 threading 模块 ， 它 支持 守护 线程 ， 可 以 通过 setpaemon() 函数 来 设 定 线程 的 
daemon 属性 。 当 daemon 属性 设置 为 True 的 时 候 表 明 主 线程 的 退出 可 以 不 用 等 待 子 线 


程 完 成 。 黑 认 情 况 下 ，daemon 标志 为 False， 所 有 的 非 守 护 线程 结束 后 主线 程 才 会 结 
束 。 


Import threading 
Import time 
def myfunc(a, delay): 
print("I will calculate Square of {} after delay for {}".format(a, delay)) 
time.sleep(delay) 
print@ cecalculate begnnses ) 
result =a*a 
print(result) 
return result 


t1 = threading.Thread(target=myfunc, args=(2, 5)) 
t2 = threading.Thread(target=myfunc, args=(6, 8)) 
print(t1.isDaemon()) 

print(t2.isDaemon()) 

t2.setDaemon(True) 

t1.start() 

t2.start() 


。 Python3 中 已 经 不 存在 thread 模块 。thread 模块 在 Python3 中 被 命名 为 _thread， 这 种 
更 改 主要 是 为 了 进一步 明确 表示 与 thread 模块 相关 的 更 多 的 是 具体 的 实现 细节 ， 它 更 多 
展示 的 是 操作 系统 层面 的 原始 操作 和 处 理 。 


建议 49 : 使 用 Queue 使 多 线程 编程 更 安全 


多 线程 编程 不 是 件 容 易 的 事情 。 线 程 间 的 同步 和 互 斥 ， 线 程 间 数据 的 共享 等 这 些 都 是 涉及 线 
程 安全 要 考虑 的 问题 。 纵 然 Python 中 提供 了 众多 的 同步 和 互 斥 机 制 ， 如 mutex、condition、 
event 等 ， 但 同步 和 互 矿 本 身 就 不 是 一 个 容易 的 话题 ， 稍 有 不 惯 就 会 陷入 死 锁 状态 或 者 威胁 线 
程 安全 。 


Python 中 的 Queue 模块 提供 了 3 种 队列 : 


e@ Queue.Queue(maxsize) : 先进 先 出 ，maxsize 为 队列 大 小 ， 其 值 为 非 正 数 的 时 候 为 无 限 循 
环 队 列 

© Queue.LifoQueue(maxsize) : 后 进 先 出 ， 相 当 于 栈 

© Queue.PriorityQueue(maxsize) : 优先 级 队列 


这 3 种 队列 支持 以 下 方法 : 


e@ Queue.qsize() : 返回 近似 的 队列 大 小 。 之 所 以 说 是 近似 ， 当 该 值 > 0 的 时 候 并 不 保证 并 
发 执行 的 时 候 get() 方法 不 被 阻塞 ， 同 样 ， 对 于 put() 方法 有 效 。 

e Queue.empty() : 队列 为 空 的 时 候 返回 True， 和 否则 返回 False 

e。 Queue,full() : 当 设 定 了 队列 大 小 的 情况 下 ， 如 果 队 列 满 则 返回 True， 否则 返回 
False。 


e Queue,put(item[，block[，timeout]]) : 往 队 列 中 添加 元 素 item，block 设置 为 False 的 
时 候 ， 如 果 队 列 满 则 抛 出 Full 异常 。 如 果 block 设置 为 True ，timeout 为 None 的 时 候 则 
会 一 直 等 待 直到 有 空位 置 ， 和 否则 会 根据 timeout 的 设 定 超时 后 抛 出 Full 异常 。 

© Queue.put_nowait(item) : 等 于 put(item, False).block 设置 为 False 的 时 候 ， 如 果 队 
列 空 则 抛 出 Empty 弄 常 。 如 果 block 设置 为 True 、timeout 为 None 的 时 候 则 会 一 直 等 
到 有 元 素 可 用 ， 否 则 会 根据 timeout 的 设 定 超 时 后 抛 出 Empty 异常 。【 个 人 : 这 里 是 不 
是 说 反 了 ? 】 

e@ Queue.get([block[，timeout]]) : 从 队列 中 删除 元 素 并 返回 该 元 素 的 值 

© Queue.get nowait() : 等 价 于 get (False) 

© Queue.task done() : 发 送信 号 表明 入 列 任务 已 经 完成 2 经 常 在 消 费 者 线程 中 用 到 

e Queue.,join() : 阻塞 直至 队列 中 所 有 的 元 素 处 理 完毕 


Queue 模块 实现 了 多 个 生产 者 多 个 消费 者 的 队列 ， 当 多 线程 之 间 需 要 信息 安全 的 交换 的 时 候 
特别 有 用 ， 因 此 这 个 模块 实现 了 所 需要 的 锁 原 语 ， 为 Python 多 线程 编程 提供 了 有 力 的 支持 ， 
它 是 线程 安全 的 。 需 要 注意 的 是 Queue 模块 中 的 队列 和 collections.deque 所 表示 的 队列 并 
不 一 样 ， 前 者 主要 用 于 不 同 线程 之 间 的 通信 ， 它 内 部 实现 了 线程 的 锁 机 制 ; 而 后 者 主要 是 数 

握 结 构 上 的 概念 ， 因 此 支持 in 方法 。 


因为 queue 本 身 能 够 保证 线程 安全 ， 因 此 不 需要 额外 的 同步 机 制 。 下 面 有 个 多 线程 下 载 的 例 
村 


import os 
import Queue 
import threading 
import urllib2 
class DownloadThread(threading.Thread): 
def init (self, queue): 
threading.Thread. init (self) 
self.queue = queue 
qef mun(serne 
whiyle True: 
url = self.queue.get() # 从 队列 中 取出 一 个 Url 元 素 
print(self.name + "begin download" + Url + "...") 
self .download_file(ur1l) # 进行 文件 下 载 
self.queue.task_done() # 下 载 完 毕 发 送信 号 
print(self.name + " download completed!!!") 
def download file(self, url): # 下 载 文 件 
urlhandler = urllib2.urlopen(url1) 
fname = os.path.basename(url) + ".html" # 文件 名 称 
with open(fname, "wb") as f: # 打开 文件 
whaulee True 
chunk = urlhandler.read(1024) 
if not chunk: 
break 
f.write(chunk) 
tr name == " main _": 





urls = ["https://www.createspace.com/3611970", "http://wiki.python.org/moni.WwebProg 
ramming"] 
dueue = Queue.Queuel() 
# create a thread pool and give them a queue 
for i in range(5): 
t = DownloadThread(queue) # 启动 5 个 线程 同时 进行 下 载 
t.setDaemon(True) 
t.start() 


# give the queue some data 
for Url in urls: 
queue.put(url) 


# wait for the queue to finish 
queue.join() 


)) 


第 5 章 设 计 模 式 


软件 开发 行业 的 设计 模式 广为人知 ， 这 是 GoF 的 《设计 模式 可 复 用 面向 对 象 软 件 的 基 
础 》 的 功劳 ， 后 来 的 《Head First 设计 模式 》 则 通过 幽默 的 文风 使 其 广泛 流行 于 程序 员 之 间 。 
但 是 这 两 本 分 别 使 用 C++ 和 Java 编程 语言 作为 载体 ， 不 能 直接 照搬 到 Python 程序 中 ， 否 则 
会 有 静态 语言 风格 。 





Python 的 动态 语言 特性 并 不 能 完全 替代 设计 模式 。 


建议 50 : 利用 模块 实现 单 例 模 式 


在 GoF 的 23 种 设计 模式 中 ， 单 例 是 最 常 使 用 的 模式 ， 通 过 单 例 模 式 可 以 保证 系统 中 一 个 类 
只 有 一 个 实例 而 且 该 实例 易于 被 外 界 访问 ， 从 而 方便 对 实例 个 数 的 控制 并 节约 系统 资源 。 每 
当 大 家 想 要 实现 一 个 XxxManager 的 类 时 ， 往 往 意 味 着 这 是 一 个 单 例 。 


有 不 少 现代 编程 语言 将 其 加 到 了 语言 特性 中 ， 如 scala 和 falcon 语言 都 把 object 定义 成 关键 
词 ， 并 用 其 声明 单 例 。 如 在 scala 中 ， 一 个 单 例如 下 


object Singleton { 
def show = println("I am a singleton") 


} 


object 定义 了 一 个 名 为 Singleton 的 单 例 ， 它 满足 单 例 的 3 个 需求 : 一 是 只 能 有 一 个 实例 ; 二 
是 它 必须 自行 创建 这 个 实例 ; 三 是 它 必须 自行 向 整个 系统 提供 这 个 实例 。 对 于 第 三 点 ， 在 任 
何 地 方 都 可 以 通过 调用 singleton.show() 来 验证 。 在 scala 中 ， 单 例 没 有 显 式 的 初始 化 操 
作 ， 但 并 不 是 所 有 在 语法 层面 支持 单 例 模式 的 编程 语言 都 如 此 ， 比 如 falcon 就 不 一 样 。 


object object_name [from class1, class2 ... classN] 
property_1 = expression 
property_2 = expression 


property_N = expression 

[init block] 

function method_1([parameter_l1ist]) 
[method_body] 

end 


function method_N([parameter_l1ist]) 
[method_body] 
end 
end 


[init block] 能 够 让 程序 员 手 动 控制 单 例 的 初始 化 代码 。 但 是 与 scala 和 falcon 相 比 ， 动 态 
语言 Python 缺乏 声明 私有 构造 济 数 的 语法 元 素 ， 实 例 又 带 有 类 型 信息 。 所 以 以 下 方法 是 不 可 
行 的 : 


~ 


class _Singleton(object): 
pass 
Singleton = _Singleton() 
del _Singleton # 试图 删除 class 定义 


another = Singleton. class () # 没 用 ， 绕 过 | 
print(type(another)) 

# 输出 

<class ' main _._Singleton'> 


可 见 虽 然 把 Singleton 的 类 定义 删除 了 ， 但 仍然 有 办 法 通过 已 有 实例 的 _class 属性 生成 
一 个 新 的 实例 。 于 是 许多 Pythonista 把 目光 聚集 到 申 正 创建 实例 的 方法 _ new 上: 


class Suangleton(oDgece).: 
_instance = None 
def mewatcls SS kwargsoh 
if not cls._instance: 
cls._instance = super(Singleton, cls)._ new (cls, *args, **kwargs) 
return cls._instance 
ti name = man 





S1 = Singleton() 
s2 = Singleton() 
assert id(s1) == id(s2) 


这 个 方法 基本 上 可 以 保证 “只 能 有 一 个 实例 "的 要 求 了 ， 但 是 在 并 发 情况 下 可 能 会 发 生意 外 ， 解 
决 办 法 是 引入 锁 : 


Class Singleton(object): 
= by 
objs_locker = threading.Lock() 


objs 


def newi (cls, “args, “+*Kkwargs): 
TCLESYINe cls os 
return cls.objs[cls] 
cls.objs_locker .acquire() 
Blew 
CES TIN CLs obgs: ## double check locking 
return cls.objs[cls] 
cls.objs[cls] = object. new (cls) 
fa 
cls.objs_locker.release() 


利用 经 典 的 双 检 查 锁 机 制 ， 确 保 了 在 并 发 环境 下 Singleton 的 正确 实现 。 但 这 个 方案 并 不 完 
美 ， 比 如 以 下 两 个 问题 : 


。 如 果 Singleton 的 子 类 重 载 了 _new_() 方法 ， 会 履 盖 或 者 干扰 Singleton 类 中 
_new_() 的 执行 ， 虽 然 这 种 情况 出 现 的 概率 极 小 ， 但 不 容 忽视 。 

e。 如 果子 类 有 _init () 方法 ， 那 么 每 次 实例 化 该 Singleton 的 时 候 ，_ init () 都 会 
被 调用 到 ， 这 显然 是 不 应 该 的 ，_init () 只 应 该 在 创建 实例 的 时 候 被 调用 一 次 。 


这 两 个 问题 当然 可 以 解决 ， 比 如 通过 文档 告知 其 他 程序 员 ， 子 类 化 Singleton 的 时 候 ， 务 必 调 
用 父 类 的 ”new _() 方法 ; 而 第 二 个 问题 也 可 以 通过 偷偷 地 替换 掉 ”init () 方法 来 确保 
它 只 调用 一 次 。 但 是 ， 为 了 实现 一 个 单 例 ， 做 大 量 的 、 水 面 之 下 的 工作 相当 不 Pythonic 。 


模块 采用 的 其 实 是 天 然 的 单 例 的 实现 方式 : 


。 所 有 的 变量 都 会 绑 定 到 模块 
e 模块 只 初始 化 一 次 
。 import 机 制 是 线程 安全 的 《保证 了 在 并 发 状态 下 模块 也 只 有 一 个 实例 ) 


所 以 创建 一 个 world 单 例 时 : 


# World.py 
import Sun 
de run(): 
while True: 
Sun.rise() 
Sun.set() 


然后 在 入 口 文件 main.py 里 导入 ， 并 调用 run() 函数 : 


# main.py 
import World 
World.run() 


Alex Martelli 认为 单 例 模式 要 求 "实例 的 唯一 性 "本 身 是 有 问题 的 ， 实 际 更 值得 关注 的 是 实 
例 的 状态 ， 只 要 所 有 的 实例 共享 状态 (可 以 狭义 地 理解 为 属性 ) 、 行 为 (可 以 狭义 地 理 
解 为 方法 ) 一 致 就 可 以 了 。 于 是 有 Borg 模式 (在 C# 中 又 称 为 Monostate 模式 ) 。 


class Borg: 
”Shared_ state = {} 
de ninit(SelLf) 
self dict self sharedistate 
# and whatever else you want in your class -- that's alll! 


通过 Borg 模式 ， 可 以 创建 任意 数量 的 实例 ， 但 因为 它们 共享 状态 ， 从 而 保证 了 行为 一 
致 。Alex 的 这 个 Borg 模式 仅 适 用 于 古典 类 (classic classess) ，Python2.2 以 后 的 新 式 
类 (new-style classes) 需要 使 用 _getattr 和 _ setattr 方法 来 实现 。 


建议 51 : 用 mixin 模式 让 程序 更 加 灵活 


先 来 了 解 一 下 模版 方法 模式 ， 模 版 方法 模式 就 是 在 一 个 方法 中 定义 一 个 算法 的 骨架 ， 并 将 一 
些 实 现 步骤 延迟 到 子 类 中 。 模 版 方法 可 以 使 子 类 在 不 改变 算法 结构 的 情况 下 ， 重 新 定义 算法 
中 的 某 些 步骤 。 


模版 方法 在 C++ 或 其 他 语言 中 并 无 不 妥 ， 但 在 Python 中 有 点 画蛇添足 。 比 如 模版 方法 ， 需 
要 先 定义 一 个 基 类 ， 而 实现 行为 的 某 些 步骤 则 必须 在 其 子 类 中 ， 在 Python 中 并 无 必要 。 


class People(object): 
def makemteal(seLh 
teapot = self.get_ teapot() 
teapot .put_in_ tea() 
teapot .put_in water() 
return teapot 


get_teapot() 方法 并 不 需要 预先 定义 : 


class OffricePpeopLle(pPeopley: 
qefroqetnteapot(Sselt) 
return SimpleTeaPot() 


class HomePeople(People): 
def get_ teapot(self): 
return KungfuTeapot() 


虽然 看 起 来 像 模板 方法 ， 但 是 基 类 并 不 需要 预先 声明 抽象 方法 ， 甚 至 还 带 来 帅 事 代码 的 便 
利 [e) 


如 果子 类 没有 实现 get_teapot() 方法 ， 所 以 一 调用 make_tea() 就 会 产生 一 个 找 不 到 方法 的 


AttributeError ° 


但 是 ， 这 样 导 致 方法 只 能 实现 一 个 ， 解 决 方法 有 两 种 : 一 种 是 继承 子 类 ， 再 重 写 
get_teapot() ; 另 一 个 则 是 把 get_teapot() 方法 提取 出 来 ， 把 它 以 多 继承 的 方式 做 一 次 静 
态 混 入 。 


class UseSimpleTeapot(object): 
defrgetiteapot(seLf) 
return SimpleTeaPot() 


class UsekungfuTeapot(object): 
def get teapot(self): 
return KungfuTeapot() 


class Offricepeople(People Usesampleleanor): 
pass 

class HomePeople(People, UseKungfuTeapot): 
pass 

class Boss(People UseKkungftuneapot)y 
pass 


但 是 这 样 的 代码 仍然 没有 把 Python 的 动态 性 表现 出 来 ， 当 新 的 需求 出 现时 ， 需 要 更 改 类 定 
义 o 


于 是 我 们 开始 寄 望 于 动态 地 生成 不 同 的 实例 : 


def simple tea peoplel(): 
people = People() 
people. bases _ += (UseSimpleTeapot, ) 
return people 
def coffee people(): 
people = People() 
people. bases _ += (UseCoffeepot, ) 
return people 
def teanandlcotfeedpeople(): 
people = People() 
people. bases _ += (UseSimpleTeapot, UseCoffeepot, ) 
return people 
def boss(): 
people = People() 
people. bases += (KungfuTeapot, UseCoffeepot, ) 
return people 


这 个 代码 能 够 运行 的 原理 是 ， 每 个 类 都 有 一 个 _bases 属性 ， 它 是 一 个 元 组 ， 用 来 存放 所 
有 的 基 类 。 与 其 他 静态 语言 不 同 ，Python 语言 中 的 基 类 在 运行 中 可 以 动态 改变 。 所 以 当 我 们 
向 其 中 添加 新 的 基 类 时 ， 这 个 类 就 拥有 了 新 的 方法 ， 也 就 是 所 谓 的 混入 (mixin) 。 这 种 动态 
性 的 好 处 在 于 代码 获得 了 更 丰富 的 扩展 功能 。 


值得 进一步 探索 的 是 ， 利 用 反射 技术 ， 甚 至 不 需要 修改 代码 : 


Import mixins 

def statfl): 
people = People() 
bases = [] 
for i in config.checked(): 

bases.append(getattr(mixins, i)) 

people. bases _ += tuple(bases) 
return people 


通过 这 个 框架 代码 ，OA 系统 的 开发 人 员 只 需要 把 常见 的 需求 定义 成 Mixin 预告 放 在 mixins 
模块 中 ， 就 可 以 在 不 修改 代码 的 情况 下 通过 管理 界面 满足 几乎 所 有 需求 了 。 


建议 52 : 用 发 布 订 阅 模式 实现 松 耦 合 


Wai 
会 发 送 器 消息 给 特定 的 接收 者 (订阅 者 ) ， 而 是 将 发 布 的 消息 分 为 不 同 的 类 别 直 接 发 布 ， 并 
pe 而 订阅 者 可 以 对 一 个 或 多 个 类 别 感 兴趣 ， 且 只 接收 感 兴趣 的 消息 ， 并 
且 不 关注 是 哪个 发 布 者 发 布 的 消息 。 这 种 发 布 者 和 订阅 者 的 解 耦 可 以 多 许 更 好 地 可 扩 放 性 和 
更 为 动态 的 网 络 拓扑 。 


发 布 订 阅 模式 的 优点 是 发 布 者 与 订阅 者 松散 的 耦合 ， 双 方 不 需要 知道 对 方 的 存在 。 由 于 主题 
是 被 关注 的 ， 发 布 者 和 订阅 者 可 以 对 系统 拓扑 毫 无 所 知 。 无 论 对 方 是 否 存在 ， 发 送 者 和 订阅 
者 都 可 以 继续 正常 操作 。 要 实现 这 个 模式 ， 就 需要 有 一 个 中 间 代 理 人 ， 在 实现 中 一 般 被 称 为 
Broker， 它 维护 着 发 布 者 和 订阅 者 的 关系 : 定 于 这 把 感 兴 趣 的 主题 告诉 它 ， 而 发 布 者 的 信息 
也 通过 它 路 由 到 各 个 订阅 者 处 。 


简单 的 实现 如 下 : 


from collections import defaultdict 
route_table = defaultdict(1ist) 
def sub(self, topic, callback): 
If callback in route_ table[topic]: 
euan 
route_table[topic].append(callback) 
defpubikseTi opcC “a ow 
for func in route_ table[topic]: 
func(*a, **kw) 


直接 放 在 一 个 叫 Broker .py 的 模块 中 ( 单 件 ) ， 省 去 了 各 种 参数 检测 、 优 先 处 理 的 需求 等 ， 
其 至 没有 取消 订阅 的 函数 ， 但 它 展现 了 发 布 订阅 模式 实现 的 最 基础 的 结构 。 它 的 应 用 代码 : 


Import Broker 
def greeting(name ) : 

print("Hello, {}".format(name)) 
Broker.sub("greet", greeting) 
Broker .pub("greet", "LaiYonghao") 


相对 于 这 个 简化 版 本 ，blinker 和 python-message 两 个 模块 的 实现 要 完备 得 多 。blinker 已 经 
被 用 在 了 多 个 广 受 欢迎 的 项 目 上 ， 比 如 flask 和 django ; 而 python-message 则 支持 更 多 丰富 
的 特性 。 


安装 python-message : pip install message 


验证 : 


Import message 
def hello(name): 

print("Hello {}".format(name)) 
message.sub("greet", hello) 
message.pub("greet", "lai") 


假设 现在 有 两 个 模块 使 用 不 同 的 形式 进行 日 志 输出 ， 于 是 可 以 这 么 编写 bar() 总数 : 


Import message 

LOG_MSG = ("1og"，"foo") 

def bar(): 
message.pub(LOG MSG, "Haha, Calling bar().") 
do_sth() 


在 已 有 的 项 目 中 ， 只 需要 在 项 目 开 始 处 加 上 这 样 的 代码 ， 继 续 把 日 志 放 到 标准 输出 : 


Import message 
import foo 
def handle foo log msg(txt): 
print(txt) 
message.sub(foo.LOG MSG, handle foo_ log msg) 


而 在 那个 使 用 logging 的 新 项 目 中 ， 则 这 样 修改 : 


def hand]le_foo_ log msg(txt): 
Import 1ogging 
logging.debug(txt) 


甚至 在 一 些 不 关注 底层 库 的 日 志 项 目 中 ， 直 接 无 视 就 可 以 了 。 通 过 message， 可 以 轻松 获得 
库 与 应 用 之 间 的 解 耦 ， 因 为 库 关 注 的 是 要 有 日 志 ， | 志 输 出 到 哪里 ; 应 用 关注 的 是 
日 志 要 统一 放置 ， 但 不 关系 谁 往日 志文 件 中 输出 内 容 ， 这 与 发 布 订阅 模式 类 似 。 


了 简单 的 sub()/pub() 之 外 ，python-message 还 支持 取消 订阅 ( unsub() ) 和 中 止 消息 
。 


Import message 
def hello(name): 
print("hello {}".format(name)) 
ctx = message.Context() 
ctx.discontinued = True 
PewurnE etx 
def hi(name): 
prine( ucann ceremes.) 
message.sub("greet", hello) 
message.sub("greet", hi) 
message.pub("greet", "lai") 


python-message 利用 回调 函数 的 返回 值 来 实现 消息 传递 。 这 里 消息 在 调用 hello() 后 就 中 
止 传递 了 (Broker 使 用 list 对 象 存 储 回调 函数 就 是 为 了 保证 次 序 ) 


python-message 是 同步 调用 回调 函数 的 ， 也 就 是 说 谁 先 sub 谁 就 先 被 调用 。 大 部 分 情况 下 这 
样 已 经 能 够 满足 大 部 分 需求 ， 但 有 时 需要 后 sub 的 函数 先 被 调用 ， 这 时 message.sub 函数 通 
过 一 个 默认 参数 来 支持 ， 只 需要 在 调用 sup 的 时 候 加 上 front=True ， 这 个 回调 函数 将 被 插 
到 所 有 之 前 已 经 Sub 的 回调 函数 之 前 : sub("greet", hello, front=True) ° 


订阅 /发 布 模式 是 观察 者 模式 的 超 集 ， 它 不 关注 消息 是 谁 发 布 的 ， 也 不 关心 消息 由 谁 处 理 。 如 
果 需 要 自己 的 类 也 能 够 方便 地 订阅 /发 布 消息 ， 也 就 是 想 退 化 为 观察 者 模式 ，python-message 
同样 提供 了 支持 : 


from message import observable 
def greet(people): 
print("hello, {}".format(people.name)) 
@observable 
class Foo(object): 
def inNnit (self, name): 
print("Foo") 
self.name = name 
selfssub( ogreet” oreet) 
def” pub greet(self): 
self.pub("greet", self) 
foo = Foo("l1ai") 


foo.pub_greet() 


python-message 提供 了 类 装饰 函数 observable() ， 任 何 class 只 需要 通过 它 装饰 一 下 就 拥 
有 了 sub/ubsub/pub/declare/retract 等 方法 ， 它 们 的 使 用 方法 跟 全 局 函数 是 类 似 的 。 


因为 python-message 的 消息 订阅 默认 是 全 局 性 的 ， 所 以 有 可 能 产生 名 字 冲 突 。 在 减少 
名 字 冲 突 方面 ， 可 以 借鉴 java/actionscript3 的 package 起 名 策略 ， 比 如 在 应 用 中 定 


义 消息 主题 常量 Fo0='com.googlecode.python-message.F00' ， 这 样 多 个 库 同 时 定义 FOO 
常量 也 不 容易 冲突 。 除 此 之 外 ， 就 是 使 用 uuid : 


UURdEs = Dl 213213123213128320 
FO0 = uuid + "FOO" 


建议 53 : 用 状态 模式 美化 代码 


状态 模式 ， 就 是 当 一 个 对 象 的 内 在 状态 改变 时 允许 改变 其 行为 ， 但 这 个 对 象 看 起 来 像 是 改变 
了 其 类 。 状 态 模式 主要 用 于 控制 一 个 对 象 状 态 的 条 件 表 达 式 过 于 复杂 的 情况 ， 其 可 把 状态 的 
判断 逻辑 转移 到 表示 不 同 状 态 的 一 系列 类 中 ， 进 而 把 复杂 的 判断 逻辑 简化 。 


由 于 Python 语言 的 动态 性 ， 状 态 模式 的 Python 实现 与 C++ 等 语言 的 版 本 比 起 来 简单 得 多 。 


def workday(): 
print("work hard!") 
def weekend ( ) : 
print("play harder!") 
class People(opyject) 
pass 
people = People() 
whale Trues 
for i in xrange(1, 8) 
if i == 6: 
people.day = weekend 
if i == 1: 
people.day = workday 
people. day() 


通过 在 不 同 的 条 件 下 将 实例 的 方法 (即行 为 ) 替换 掉 ， 就 实现 了 状态 模式 。 但 仍然 有 缺陷 : 

e。 查询 对 象 的 当前 状态 很 麻烦 

e。 状态 切换 时 需要 对 原状 态 做 一 些 清扫 工作 ， 而 对 新 的 状态 需要 做 一 些 初始 化 工作 ， 因 为 
每 个 状态 需要 做 的 事情 不 同 ， 全 部 写 在 切换 状态 的 代码 中 必然 重复 ， 所 以 需要 一 个 机 制 
来 简化 。 

python-state 包 通 过 几 个 辅助 函数 和 修饰 函数 很 好 地 解决 了 这 个 问题 ， 并 且 定 义 了 一 个 简明 状 

态 机 框架 : 


人 > A 


女 农 . pip install state 


然后 改写 : 


from state import curr, switch, stateful, State, behavior 
@stateful 
class People(object): 
class Workday(State): 
default = True 
@behavior 
def™°day(SseLf)s 
print("work hard!") 
Class Weekend(State): 
@behavior 
def day(self): 
print("play harder!") 
people = People() 
while True: 
for 1 in xrange(1, 8): 


if i == 6: 
switch(people, People.weekend) 
if i == 1: 


switch(people, People.workday) 
people. day() 


首先 是 @stateful 这 个 修饰 函数 ， 其 中 最 重要 的 是 重 载 了 被 修饰 类 的 _getattr _() 方法 从 
而 使 得 People 的 实例 能 够 调用 当前 状态 类 的 方法 。 被 @stateful 修饰 后 的 类 的 实例 是 带 有 
状态 的 ， 能 有 使 用 curr() 查询 当前 状态 ， 也 可 以 使 用 switch() 进行 状态 切换 。 


可 以 看 到 类 Workday 继承 自 State 类 ， 这 个 State 类 也 是 来 自 于 state 包 ， 从 其 派生 的 子 类 
能 够 使 用 _begin 和 _end 状态 转换 协议 ， 通 过 重 载 这 两 个 协议 ， 子 类 能 够 自 定义 进 
入 和 离开 当前 状态 时 对 宿主 的 初始 化 和 清理 工作 。 对 于 一 个 @stateful 类 而 言 ， 有 一 个 默认 
的 状态 ( 即 其 实例 初始 化 后 的 第 一 个 状态 ) ， 通 过 类 定义 的 default 属性 标识 ，defalut 设置 为 
True 的 类 成 为 默认 状态 。 @behavior 修饰 函数 用 以 修饰 状态 类 的 方法 ， 其 实 它 是 内 置 函 数 


staticmethod 的 别 名 





之 所 以 将 状态 类 的 方法 实现 为 静态 方法 ， 这 是 因为 state 包 的 原则 是 状态 类 只 有 行为 ， 没 有 状 
态 a ， 这样 可 以 更 好 地 实现 代码 重用 。 然 而 既然 day() 方法 是 静态 
的 ， 却 有 self 参数 。 这 其 实 使 因为 self 并 不 是 Python 的 关键 字 ， 在 这 里 使 用 self 有 助 于 理 
解 状态 类 的 宿主 是 ee 的 实例 。 


通过 状态 模式 ， 可 以 像 decorator 一 样 去 掉 if...raise... 上 下 文 判断 ， 而 且 丨 的 是 一 个 

下 人 RaLSeE 都 没有 了 ES 另 外 2 需要 多 重 判断 的 时 候 要 给 一 个 方法 戴 上 多 个 装饰 函数 的 ' 情 
况 也 没有 了 ， 还 通过 十 把 多 个 方法 分 派 到 不 同 的 状态 类 ， 消 灭 掉 巨 类 ， 保 持 类 的 短小 ， 更 容易 
维护 和 重用 。 而 且 还 有 一 个 好 处 : 当 调 用 当前 状态 不 存在 的 行为 时 ， 出 错 信息 抛 出 的 是 
AttributeError， 从 而 避免 把 问题 变 为 复杂 的 逻辑 错误 ， 让 程序 员 更 容易 找到 出 错位 置 ， 进 而 
修正 问题 。 


@stateful 
class User(object): 
class NeedSignin(State): 
default = True 
@behavior 
def” signin(self. usr pwd)e 


switch(self, Player.Signin) 
class sngnin(lstate)s 
@behavior 
defmmovel(selt oes 


@behavior 
def atk(Sselftr otner)e 
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第 6 章 内 部 机 制 


建议 54 : 理解 built-in objects 


Python 中 一 切 展 对象 : 字符 是 对 象 ， 列 表 是 对 象 ， 内 建 类 型 ( puilt-in type ) 也 是 对 象 ; 

用 户 定义 的 类 型 是 对 象 ，object 是 对 象 ，type 也 是 对 象 。 自 Python2.2 以 后 ， 为 了 弥补 内 建 
类 型 和 古典 类 (classic classes) 之 间 的 鸿沟 引入 了 新 式 类 (new-style classes) 。 在 新 式 类 
中 ，object 是 所 有 内 建 类 型 的 基 类 ， 用 户 所 定义 的 类 可 以 继承 自 object 也 可 以 继承 自 内 建 类 


型 。 


油 沟 


在 2.2 版 本 之 前 ， 类 和 类 型 并 不 统一 ， 如 a 是 古典 类 ClassA 的 一 个 实例 ， 那 么 

a. class 。 返回 class main ClassA ，type(a) 返回 <type 'instance'> 。 当 引入 新 
类 后 ， 比如 ClassB 是 个 新 类 ，b 是 ClassB 的 实例 ，b. class 和 type(b) 都 是 返 
回 


class main .ClassB ° 


bao 


上 结论 : 


— 


在 Python 中 一 切 虱 对象，type 也 是 对 象 

object 和 古典 类 没有 基 类 ， type 的 基 类 为 object 

e 新 式 类 中 type() 的 值 和 class 的 值 是 一 样 的 ， 但 古典 类 中 实例 的 type 为 
instance ， 其 type() 的 值 和 ”Class _ 的 值 不 一 样 

e 继承 自 内 建 类 型 的 用 户 类 的 实例 也 是 object 的 实例 ， object 是 type 的 实 
例 ，type 实际 是 个 元 类 (metaclass ) 

@ object 和 内 建 类 型 以 及 所 有 基于 type 构建 的 用 户 类 都 是 type 的 实例 

。 在 古典 类 中 ， 所 有 用 户 定义 的 类 的 类 型 都 为 instance 


古典 类 和 新 式 类 的 一 个 区 别 是 : 新 式 类 继承 自 object 类 或 者 内 建 类 型 。 我 们 不 能 简单 地 从 
定义 的 形式 上 来 判断 一 个 类 是 新 式 类 还 是 古典 类 ( _metaclass ”属性 会 影响 到 ) ， 应 当 通 
过 元 类 的 类 型 来 确定 类 的 类 型 ， 古典 类 的 元 类 为 types,.ClassType ， 新 式 类 的 元 类 为 type 
类 0° 

新 式 类 相对 于 古典 类 来 说 有 很 多 优势 : 能 够 基于 内 建 类 型 构建 新 的 用 户 类 型 ， 支 持 property 
和 描 述 生 竺 特 ， 性 等 oO 





作为 新 式 类 的 祖先 ，Object 类 中 还 定义 了 一 些 特殊 方法 ， 如 : _new ()、 init ()、 


”delattr ()、_ getattribute _ De hnasneGe ep SG) 等 。 


object 的 子 类 可 以 对 这 些 方法 进行 覆盖 以 满足 自身 的 特殊 需求 。 





建议 55: ”init () 不 是 构造 方法 
从 表面 上 看 它 确 实 很 像 构 造 方法 : 当 需 要 实例 化 一 个 对 象 的 时 候 ， 使 用 a=class(args...) 便 
可 以 返回 一 个 类 的 实例 ， 其 中 args 的 参数 与 _ init () 方法 中 申明 的 参数 一 样 。 


_init () 并 不 是 丨 正 意 义 上 的 构造 方法 ，_init () 方法 所 做 的 工作 是 在 类 的 对 象 创建 
好 之 后 进行 变量 的 初始 化 。 _new _() 方法 才 会 真正 创建 实例 ， 是 类 的 构造 方法 。 这 两 个 方 
法 都 是 object 类 中 默认 的 方法 ， 继 承 自 object 的 新 式 类 ， 如 果 不 和 覆盖 这 两 个 方法 将 会 默认 调 
用 object 中 对 应 的 方法 。 

来 看 看 new _() 方法 和 _init () 方法 的 定义 : 


e。 object. new (cls[, args...]) :其 中 Cls 代表 类 ，args 为 参数 列表 
e object. init (self[, args...]) : 其 中 self 代表 实例 对 象 ，args 为 参数 列表 


这 两 个 方法 之 间 有 些 不 同 点 ， 总 结 如 下 : 


根据 Python 文档 可 知 ，_new () 方法 是 静态 方法 ， 而 _init () 为 实例 方法 

e。 _new () 方法 一 般 需要 返回 类 的 对 象 ， 当 返回 类 的 对 象 时 将 会 自动 调用 _init _() 
方法 进行 初始 化 ， 如 果 没 有 对 象 返回 ， 则 _init () 方法 不 会 被 调用 。 _init () 方 
法 不 需要 显示 返回 ， 默 认为 None， 和 否则 会 在 运行 时 抛 出 TypeError 

e 当 需 要 控制 实例 创建 的 时 候 可 使 用 _new () 方法 ， 而 控制 实例 初始 化 的 时 候 使 用 
_init () 方法 

e 一 般 情 况 下 不 需要 履 盖 new () 方法 ， 但 当 子 类 继承 自 不 可 变 类 型 ， 如 
str 、 int 、 unicode 或 者 tuple 的 时 候 ， 往 往 需 要 和 覆盖 该 方法 

e。 当 需 要 履 盖 _new _() 和 _init () 方法 的 时 候 这 两 个 方法 的 参数 必须 保持 一 致 ， 如 

果 不 一 致 将 导致 异常 。 


一 般 情况 下 和 窗 盖 _init () 能 满足 大 部 分 需求 ， 特 殊 情 况 下 需要 徐 盖 new () 方法 : 


。 当 类 继承 (如 str、int、unicode、tuple 或 者 forzenset 等 ) 不 可 变 类 型 且 默 认 的 
_new () 方法 不 能 满足 需求 的 时 候 。 比 如 需要 一 个 不 可 修改 的 集合 ， 该 集合 能 够 将 任 
何以 空格 隔 开 的 字符 串 变 为 集合 中 的 元 素 : 


class UserSet(frozenset): 
def new__(cls, *args): 
if args and isinstance(args[0], basestring): 
args = (args[0].split(), ) + args[1:] 
return super(UserSet, cls)._ new (cls, *args) 


。 用 来 实现 工厂 模式 或 者 单 例 模式 或 者 进行 元 类 编程 (元 类 编程 中 常常 需要 使 用 
_new _() 来 控制 对 象 创建 ) 的 时 候 。 


以 简单 工厂 为 例子 ， 它 由 一 个 工厂 类 根据 传 入 的 参量 决定 创建 出 哪 一 种 产品 类 的 实例 ， 
属于 类 的 创建 型 模式 : 


class > Shape(obJect): 
defmmninee (oec to 
pass 
def draw(self): 
pass 


classnmr rangle(shaped: 
de naen(s elf 
print("I am a triangle") 
def draw(self): 
print("I am drawing triangle") 


class Rectangle(Shape): 
def amatn(Sselh 
print("T " amarectangle®) 
def draw(Sse1lf): 
print("I am drawing triangle") 


class Trapezoid(Shape): 
def MNIC (self): 
print("I am a trapezoid") 
def draw(self): 
print("I am drawing triangle") 


class Diamond(Shape): 
qefomminatan( sedn) 
print("I am a diamond") 
def draw(Sself): 
print("I am drawing triangle") 


class ShapeFactory(object): 
shapes = {"triangle": Triangle, "rectangle": Rectangle, "trapezoid": Trapezoid 
， "diamond": Diamond} 
defranewn(class name)s: 
If name in ShapeFactory.shapes.keys(): 
print("creating a new shape {}".format(name)) 
return ShapeFactory.shapes[name]() 
else' 
print("craeting a new shape {}".format(name)) 
return Shape() 


在 ShapeFactory 类 中 重新 覆盖 了 new () 方法 ， 外 界 通过 调用 该 方法 来 创建 其 所 需 
的 对 象 类 型 ， 但 如 果 所 请 求 的 类 是 系统 所 不 支持 的 ， 则 返回 Shape 对 象 。 在 引入 了 工厂 
类 之 后 ， 只 需要 使 用 如 下 形式 就 可 以 创建 不 同 的 图 形 对 象 : 


ShapeFactory("rectangle") ,draw() 


e 作为 用 来 初始 化 的 ”init () 方法 在 多 继承 的 情况 下 ， 子 类 的 init () 方法 如 果 不 
显 式 调用 父 类 的 _init () 方法 ， 则 父 类 的 _init () 方法 不 会 被 调用 。 


要 显 式 调用 父 类 的 init () 方法 : super( 子 类 ，self). init () 。 对 于 多 继承 的 情况 ， 
我 们 可 以 通过 和 迭代 子 类 的 _pases 属性 中 的 内 容 来 逐一 调用 父 类 的 初始 化 方法 。 


建议 56 : 理解 名 字 查 找 机 制 
在 Python 中 ， 所 有 所 谓 的 变量 ， 其 实 都 是 名 字 ， 这 些 名 字 指 向 一 个 或 多 个 Python 对 象 。 


所 有 的 这 些 名 字 ， 都 存在 于 一 个 表 里 〈 又 称 为 命名 空间 ) ， 一 般 情 况 下 ， 我 们 称 之 为 局 部 变 
量 (locals) ， 可 以 通过 1locals() 函数 调用 看 到 。 


在 一 个 globals() 的 表 里 可 以 看 到 全 局 变量 ， 注 意 如 果 是 在 Python shell 中 执行 
locals() ， 也 可 以 看 到 全 局 的 变量 。 如 果 在 一 个 函数 里 面 定 义 这 些 变量 ， 情 况 就 会 有 所 不 
同 。 


Python 中 所 有 的 变量 名 都 是 在 赋值 的 时 候 生成 的 ， 而 对 任何 变量 名 的 创建 、 查 找 或 者 改变 都 
会 在 命名 空间 (namespace) 中 进行 。 变 量 名 所 在 的 命名 空间 直接 决定 了 其 能 访问 到 的 范 
围 ， 即 变量 的 作用 域 。Python 中 的 作用 域 自 Python2.2 之 后 分 为 局 部 作用 域 (local) 、 全 局 
作用 域 (Global) 、 上 获 套 作用 域 (enclosing functionas locals) 以 及 内 置 作用 域 (Build-in ) 
这 4 种 。 


e。 局 部 作用 域 : 一 般 来 说 函数 的 每 次 调用 都 会 创建 一 个 新 的 本 地 作用 域 ， 拥 有 新 的 命名 空 
间 。 因 此 函数 内 的 变量 名 可 以 与 函数 外 的 其 他 变量 名 相同 ， 由 于 其 命名 空间 不 通过 ， 并 
不 会 产生 冲突 。 默 认 情 况 下 函数 内 部 任意 的 贼 值 操作 (包括 = 语句 、import 语 姻 、def 语 
名、 参数 传递 等 ) 所 定义 的 变量 名 ， 如 果 没 用 global 语句 ， 则 申明 都 为 局 部 变量 ， 即 仅 
在 该 函数 内 可 见 

e 全 局 作用 域 : 定义 在 Python 模块 文件 中 的 变量 名 拥有 全 局 作用 域 ， 这 里 的 全 局 仅 限 单 个 
文件 ， 即 在 一 个 文件 的 顶层 的 变量 名 仅 在 这 个 文件 内 可 见 ， 并 非 所 有 的 文件 ， 其 他 文件 
中 想 使 用 这 些 变量 名 必须 先导 入 文件 对 应 的 模块 。 当 在 函数 之 外 给 一 个 变量 赋值 时 是 在 
其 全 局 作用 域 的 情况 下 进行 的 。 

。 吝 套 作用 域 : 一 般 在 多 重 函 数 上 网 套 的 情况 下 才 会 注意 到 。 需 要 注意 的 是 global 语句 仅 针 
对 全 局 变量 ， 在 许 套 作用 域 的 情况 下 ， 如 果 想 在 谋 套 的 函数 内 修改 外 层 函 数 中 定义 的 变 
量 ， 即 使 使 用 global 进行 申明 也 不 能 达到 目的 ， 其 结果 最 终 是 在 许 套 的 函数 所 在 的 命名 
空间 中 创建 了 一 个 新 的 变量 。 

e 内 置 作用 域 : 它 是 通过 一 个 标准 库 中 名 为 _builtin 的 模块 来 实现 的 


当 访 问 一 个 变量 的 时 候 ， 其 查找 顺序 遵循 变量 解析 机 制 LEGB 法 则 ， 即 依次 搜索 4 个 作用 
域 :局 部 作用 域 、 眶 套 作用 域 、 全 局 作用 域 以 及 内 置 作用 域 ， 并 在 第 一 个 找到 的 地 方 停止 搜 
寻 ， 如 果 没 有 搜 到 ， 则 会 抛 出 异常 。 具 体 来 说 Python 的 名 字 查 找 机 制 如 下 : 


是 在 最 内 层 的 范围 内 查找 ， 一 般 而 言 ， 就 是 函数 内 部 ， 即 在 locals() 里 面 查找 
e 在 模块 内 查找 ， 即 在 globals() 里 面 查找 
。 在 外 层 查找 ， 即 在 内 置 模块 中 查找 ， 也 就 是 在 _builtin 中 查找 


在 CPython 的 实现 中 ， 只 要 出 现 了 赋值 语 多 〈 或 者 称 为 名 字 绑 定 ) ， 那 么 这 个 名 字 就 被 当做 
局 部 变量 来 对 待 。 需 要 改变 全 局 变量 时 ， 使 用 global 关键 字 。 


在 Python 闭 包 中 ， 有 这 样 的 问题 : 


>>> def foo() : 


a = 工 

def bar(): 
b=a*2 
a=b+1 
print(a) 


return bar 


>>> foo()() 
Traceback (most recent call last): 
File "<pyshell#9>", line 1, in <module> 
foo()() 
File "<pyshell#8>", line 4, in bar 
b=a*2 
UnboundLocalError: local variable 'a' referenced before assignment 


在 闭 包 bar() 中 ， 在 编译 代码 为 字 节 码 时 ， 因 为 存在 a = b + 1 这 条 语句 ， 所 以 a 被 当做 
了 局 部 变量 看 待 ， 而 执行 时 b = a * 2 先 执行 ， 此 时 局 部 变量 a 尚 不 存在 ， 所 以 就 产生 了 一 
个 异常 。 在 Python2.X 中 可 以 使 用 global 关键 字 解 决 部 分 问题 ， 先 把 a 创建 为 一 个 模块 全 局 
变量 ， 然 后 在 所 有 读 写 (包括 只 是 访问 ) 该 变量 的 作用 域 中 都 要 先 使 用 global 声明 其 为 全 局 


>>> a = 
>>> def foo(x): 
global a 
a=a*x 
def bar(): 
global a 
b=a*2 
a=b+1 
print(a) 
return bar 
>>> foo(1)() 
3 


编程 语言 并 不 提倡 全 局 变量 ， 而 且 这 种 写法 有 时 候 还 影响 业务 逻辑 。 此 外 ， 还 有 把 a 作为 容 
器 的 一 个 元 素来 对 待 的 方案 ， 但 也 都 相当 复杂 。 申 正 的 解决 方案 是 Python3 引入 的 
nonlocal 关键 字 : 


>>>>deffoo(x)s: 


a=x 

def bar( 
nonlocal a 
b=a*2 
a=b+1 
print(a) 


return bar 


>>> foo(1) 
<function foo.<locals>.bar at Ox105de2bf8> 


建议 57 : 为 什么 需要 self 参数 


在 类 中 当 定 义 实例 方法 的 时 候 需 要 将 第 一 个 参数 显 式 声明 为 self， 而 调用 的 时 候 并 不 需要 传 入 
该 参数 。 


self 表示 的 就 是 实例 对 象 本 身 ， 即 类 的 对 象 在 内 存 中 的 地 址 。self 是 对 对 象 本 身 的 引用 。 我 们 
在 调用 实例 方法 的 时 候 也 可 以 直接 传 入 实例 对 象 。 其 实 self 本 身 并 不 是 Python 的 关键 字 

(cls 也 不 是 ) ， 可 以 将 self 替换 成 任何 你 喜欢 的 名 称 ， 如 this、obj 等 ， 实 际 效果 和 self 是 
一 样 的 (但 并 不 推荐 ， 因 为 self 更 符合 约定 俗 成 的 原则 ) 


在 方法 声明 的 时 候 需 要 定义 self 作为 第 一 个 参数 ， 而 调用 方法 的 时 候 却 不 用 传 入 这 个 参数 。 
虽然 这 并 不 影响 语言 本 身 的 使 用 ， 而 且 也 很 容易 遵循 这 个 规则 ， 但 既然 如 此 ， 为 什么 必须 在 
定义 方法 的 时 候 声明 self 参数 ? 原因 如 下 : 


e Python 在 当初 设计 的 时 候 借鉴 了 其 他 语言 的 一 些 特 征 ， 如 Moudla-3 中 方法 会 显 式 地 在 
参数 列表 中 传 入 self。Python 起 源 于 20 世纪 80 年 代 末 ， 那 个 时 候 的 很 多 语言 都 有 
self， 如 smalltalk 、 Modula-3 等 。Python 在 最 开始 设计 的 时 候 受 到 了 其 他 语言 的 影 
响 ， 因 此 借鉴 了 其 中 的 一 些 理念 。 


。 Python 语言 本 身 的 动态 性 决定 了 使 用 self 能 够 带 来 一 定 便利 。 


Python 属于 一 级 对 象 语言 (first class object)， 如 果 m 是 类 A 的 一 个 方法 ， 有 好 几 种 方 
式 都 可 以 引用 该 方法 : 


>>> class A: 
def m(self, value): 
pass 
>>> A._dict_ __["m"] 


>>> A.m.__func 


实例 方法 是 作用 于 对 象 的 ， 最 简单 的 方式 就 是 将 对 象 本 身 传 递 到 该 方法 中 去 ，self 的 存在 
保证 了 A,， dict _['m'](a，2) 的 使 用 和 a.(2) 一 致 。 同时 当 子 类 覆盖 了 父 类 中 的 方法 
但 仍然 想 调 用 该 父 类 的 方法 的 时 候 ， 可 以 方便 地 使 用 baseclass,methodname(self， 


<argument list>) 或 super(childclass, self).methodname(<argument list>) 来 实现 。 
。 在 存在 同名 的 局 部 变量 以 及 实例 变量 的 情况 下 使 用 self 使 得 实例 变量 更 容易 被 区 分 


Guido 认为 ， 基 于 Python 目前 的 一 些 特性 (如 类 中 动态 添加 方法 ， 在 类 风格 的 装饰 器 中 没有 
self 无 法 确认 是 返回 一 个 静态 方法 还 是 类 方法 等 ) 保留 其 原 有 设计 是 个 更 好 的 选择 ， 更 何况 
Python 的 哲学 是 : 显示 优 于 隐 式 (Explicit is better than implicit) 。 


建议 58 : 理解 MRO 与 多 继承 


Python 也 支持 多 继承 ， 语 法 : 


class DerivedClassName(Base1, Base2, Base3) 


古典 类 和 新 式 类 之 间 所 采用 的 MRO (Method Resolution Order， 方 法 解析 顺序 ) 实现 方式 存 
在 差异 。 


在 古典 类 中 ，MRO 搜索 采用 简单 的 自 左 向 右 的 深度 优先 方法 ， 即 按照 多 继承 申明 的 顺序 形成 
继承 树 结 构 ， 自 顶 向 下 采用 深度 优先 的 搜索 顺序 ， 当 找到 所 需要 的 属性 或 者 方法 的 时 候 就 停 
止 搜索 。 


而 新 式 类 采用 的 而 是 C3 MRO 搜索 方法 ， 该 算法 描述 如 下 : 


假定 ，C1C2...CN 表示 类 C1 到 CN 的 序列 ， 其 中 序列 头 部 元 素 (head) =C1， 序 丈 
部 (tail) 定义 = C2...CN; 


] 尾 


C 继承 的 基 类 自 左 向 右 分 别 表示 为 B1，B2...BN 

L[C] 表示 C 的 线性 继承 关系 ， 其 中 L[object] = object 。 
算法 具体 过 程 如 下 : 
LIC(B1...BN)] = C + merge(LIB1] ... L[BN], B1 ... BN) 


其 中 merge 方法 的 计算 规则 如 下 : 在 LI[B1]...LIBN]，B1...BN 中 ， 取 L[B1] 的 head， 如 
果 该 元 素 不 在 L[B2]...L[BN]，B1...BN 的 尾部 序列 中 ， 则 添加 该 元 素 到 C 的 线性 继承 序 
列 中 ， 同 时 将 该 元 素 从 所 有 列表 中 删除 (该 头 元 素 也 叫 good head) ， 和 否则 取 L[B2] 的 
head。 继续 相同 的 判断 ， 直 到 整个 列表 为 空 或 者 没有 办 法 找到 任何 符合 要 求 的 头 元 素 

(此 时 ， 将 引发 一 个 异常 ) 。 


关于 MRO 的 搜索 顺序 也 可 以 在 新 式 类 中 通过 查看 _mro 属性 得 到 证 实 。 
实际 上 MRO 虽然 叫 方 法 解析 顺序 ， 但 它 不 仅 是 针对 方法 搜索 ， 对 于 类 中 的 数据 属性 也 适用 。 


鞭 形 继承 是 我 们 在 多 继承 设计 的 时 候 需要 尽量 避免 的 一 个 问题 。 


建议 59 : 理解 描述 符 机 制 


除了 在 不 同 的 局 部 变量 、 全 局 变量 中 查找 名 字 ， 还 有 一 个 相似 的 场景 ， 那 就 是 查找 对 象 的 属 
性 。 在 Python 中 ， 一 切 恬 是 对 象 ， 所 以 类 也 是 对 象 ， 类 的 实例 也 是 对 象 。 


每 一 个 类 都 有 一 个 _dict 属性 ， 其 中 包含 的 是 它 的 所 有 属性 ， 又 称 为 类 属性 。 


除了 与 类 相关 的 类 属性 之 外 ， 每 一 个 实例 也 有 相应 的 属性 表 ( _dict  ) ， 称 为 实例 属性 。 
当 我 们 通过 实例 访问 一 个 属性 时 ， 它 首先 会 尝试 在 实例 属性 中 查找 ， 如 果 找 不 到 ， 则 会 到 类 
属性 中 查找 。 


实例 可 以 访问 类 属性 ， 但 与 读 操作 有 所 不 同 ， 如 果 通过 实例 增加 一 个 属性 ， 只 能 改变 此 实例 
的 属性 ， 对 类 属性 而 言 ， 并 没有 变化 。 


能 不 能 给 类 增加 一 个 属性 ?答案 是 ， 能 ， 也 不 能 。 说 能 是 因为 每 一 个 class 也 是 一 个 对 象 ， 动 
态 地 增 减 对 象 的 属性 与 方法 正 是 Python 这 种 动态 语言 的 特性 ， 自 然 是 支持 的 。 


说 不 能 ， 是 因为 在 Python 中 ， 内 置 类 型 和 用 户 定 义 的 类 型 是 有 分 别 的 ， 内 置 类 型 并 不 能 够 随 
意 地 为 它 增加 属性 或 方法 。 


当 我 们 通过 "" 操作 符 访问 一 个 属性 时 ， 如 果 访 问 的 实例 属性 ， 与 直接 通过 _dict 属性 获 
取 相 应 的 元 素 是 一 样 的 》 而 如 果 访 问 的 是 类 属性 3 则 并 不 相 同 : J 操作 符 封装 了 对 两 种 不 同 
属性 进行 查找 的 细节 。 


访问 类 属性 时 ， 通 过 _dict 访问 和 使 用 "." 操作 符 访问 是 一 样 的 ， 但 如 果 是 方法 ， 却 又 不 
是 如 此 了 。 


当 通 过 "." 操作 符 访问 时 ，Python 的 名 字 查 找 并 不 是 先 在 实例 属性 中 查找 ， 然 后 再 在 类 属性 中 
查找 那么 简单 ， 实 际 上 ， 根 据 通过 实例 访问 属性 和 根据 类 访问 属性 的 不 同 ， 有 以 下 两 种 情 
pO 


e 一 种 是 通过 实例 访问 ， 比 如 代码 obj.x ， 如 果 X 是 一 个 描述 符 ， 那 么 
_ getattribute_() 会 返回 type(obj)._dict_['x']. get (obj, type(obj)) 结果 ， 
即 : type(obj) 获取 obj 的 类 型 ; type(obj). dict _['x'] 返回 的 是 一 个 描述 符 ， 这 里 
有 一 个 试探 和 判断 的 过 程 ; 最 后 调用 这 个 描述 符 的 get () 方法 。 

e 另 一 个 是 通过 类 访问 的 情况 ， 比 如 代码 cls.x ， 则 会 被 _ getattribute () 转换 为 





cls. dict ['x’']: ‘get (None, ‘cls) ° 





描述 符 协 议 是 一 个 Duck Typing 的 协议 ， 而 每 一 个 函数 都 有 ”get 方法 ， 也 就 是 说 其 他 每 
一 个 函数 都 是 描述 符 。 

描述 符 机 制 有 什么 作用 ? 其 实 它 的 作用 编写 一 般 程序 的 话 还 监 用 不 上 ， 但 对 于 编写 程序 库 的 
读者 来 说 就 有 用 了 ， 比 如 已 绑 定 方法 和 未 绑 定 方法 。 

由 于 对 描述 符 的 get () 的 调用 参数 不 同 ， 当 以 obj.x 的 形式 访问 时 ， 调 用 参数 是 

_ get_ (obj，type(obj)) ; 而 以 cls.x 的 形式 访问 时 ， 调 用 参数 是 get_(None， 
type(obj)) ， 这 可 以 通过 未 绑 定 方法 的 im_self 属性 为 None 得 到 印证 


除 此 之 外 ， 所 有 对 属性 、 方 法 进行 修饰 的 方案 往往 都 用 到 了 描述 符 ， 比 如 
classmethod 、 staticmethod 和 property 等 。 以 下 是 property 的 参考 实现 : 


class Property(object): 
“Emulate pyproperty Trype() un objects/Adeserobjece ec 
def init (self, fget=None, fset=None, fdel=None, doc=None ) : 
self.fget = fget 


self.fset = fset 
self.fdel = fdel 
self. doc = doc 


def get__(self, obj, objtype=None): 
If obj is None: 
return Self 
if Self,fget is None: 
raise AttributeError, "unreadable attribute" 
return self.fget(obj) 
def set (self, obj, Vvalue): 
1f"Self :fset ls None: 
raise AttributeError, "can't set attribute" 
self.fset(obj, value) 
def deleteai(selT obj 
if Self.fdel is None: 
raise AttributeError, "can't delete attribute" 
self.fdel(obj) 


建议 60 : 区 别 ”getattr () 和 
getattribute () 方法 





_ getattr () 和 getattripute () 都 可 以 用 作 实 例 属 性 的 获取 和 拦截 〈 仅 对 实例 属性 
(instance varibale) 有 效 ， 非 类 属性 ) ， getattr () 适用 于 未 定义 的 属性 ， 即 该 属性 在 
实例 中 以 及 对 应 的 类 的 基 类 以 及 祖先 类 中 都 不 存在 ， 而 _getattribute () 对 于 所 有 属性 的 
访问 都 会 调用 该 方法 。 


需要 注意 的 是 getattribute_() 仅 用 于 新 式 类 。 


当 访问 一 个 不 存在 的 实例 属性 的 时 候 就 会 抛 出 _ AttributeError 异常 。 这 个 异常 时 由 内 部 方法 
_ getattribute (self, name) 抛 出 的 ， 因 为 _ getattribute () 会 被 无 条 件 调 用 ， 也 就 是 
说 只 要 涉及 实例 属性 的 访问 就 会 调用 该 方法 ， 它 要 么 返回 实际 的 值 ， 要 么 抛 出 异常 Python 
的 文档 中 也 提 到 了 这 一 点 。 


实际 上 _getattr_() 方法 仅 如 下 情况 才 被 调用 : 属性 不 在 实例 的 _ gict 中 ; 属性 不 在 
其 基 类 以 及 祖先 类 的 dict 中 ;触发 AttributeError 异常 时 (注意 ， 不 仅仅 是 
_getattribute () 方法 的 AttributeError 蜡 常 ，property 中 定义 的 get() 方法 抛 出 异常 
的 时 候 也 会 调用 该 方法 ) 。 


当 这 两 个 方法 同时 被 定义 的 时 候 ， 要 人 么 在 _getattribute_() 中 显 式 调用 ， 要 么 触发 
AttributeError 异常 ， 否则 _ getattr_ () 永远 不 会 被 调用 。 _ getattribute () 及 


_getattr () 方法 都 是 Object 类 中 定义 的 软 认 方法 ， 当 用 户 需要 履 盖 这 些 方法 时 有 以 下 几 
点 注意 事项 : 


e 避免 无 穷 递归 。 比 如 履 盖 getattribute () 时 使 用 了 self. dict [attr] ， 正 确 的 
做 法 是 使 用 super(obj, self). getattribute (attr) 或 者 object._ getattribute(self, 
attr) 。 无 穷 递 归 是 履 盖 _ getattr () 和 getattribute () 方法 的 时 候 需要 特别 小 

e 访问 未 定义 的 属性 。 人 _ getattr () 方法 中 不 抛 出 _ AttributeError 异常 或 者 显 
式 返回 一 个 值 ， 则 会 返回 None， 此 时 可 能 会 影响 到 程序 的 实际 运行 预期 。 


另外 关于 ”getattr () 和 ”getattribute () 有 以 下 两 点 提醒 : 


。 禾 盖 了 _getattribute () 方法 之 后 ， 任 何 属性 的 访问 都 会 调用 用 户 定 义 的 
”getattribute_() 方法 ， 性 能 上 会 有 所 损耗 ， 比 使 用 默认 的 方法 要 慢 。 

。 和 履 盖 的 getattr () 方法 如 果 能 够 动态 处 理事 先 未 定义 的 属性 ， 可 以 更 好 地 实现 数据 
隐藏 。 因 为 dir() 通常 只 显示 正常 的 属性 和 方法 ， 因 此 不 会 将 该 属性 列 为 可 用 属性 。 

e。 property 也 能 控制 属性 的 访问 ， 如 果 一 个 类 中 同时 定义 了 
property 、 getattribute () 和 getattr () 来 对 属性 进行 访问 控制 ， 则 最 先 搜 
索 的 是 _ getattribute _() 方法 ， 然 而 由 于 property 对 象 并 不 存在 dict 中 ， 因 此 并 不 能 
返回 该 方法 ， 此 时 会 搜索 property 中 定义 的 get() 方法 。 当 用 property 中 的 set() 
方法 进行 修改 并 再 次 访问 property 的 get() 方法 时 会 抛 出 异常 ， 这 种 情况 下 会 触发 对 
_ getattr__() 方法 的 调用 。 对 类 变量 的 访问 不 会 涉及 _ getattribute () 和 
_ getattr () 方法 。 


建议 61 : 使 用 更 为 安全 的 property 


property 是 用 来 实现 属性 可 管理 性 的 built-in 数据 类 型 (注意 :很 多 地 方 将 property 称 为 
函数 ， 然 而 它 实 际 上 是 一 种 实现 了 get_() 、 set_() 方法 的 类 ， 用 户 也 可 以 根据 自己 
的 需要 定义 个 性 化 的 property) ， 其 实质 是 一 种 特殊 的 数据 描述 符 (数据 描述 符 : 如 果 一 个 
对 象 同 时 定义 了 _get () 和 et_() 方法 ， 则 称 为 数据 描述 符 ， 如 果 仅 定义 了 
_get () 方法 ， 则 称 为 ae 述 符 ) 。 它 和 普通 描述 符 的 区 别 在 于 : 普通 描述 符 提 供 的 
是 一 种 较为 低级 的 控制 属性 访问 的 机 制 ， 而 property 是 它 的 高 级 应 用 ， 它 以 标准 库 的 形式 提 
供 描 述 符 的 实现 ， 其 签名 形式 为 : 





property(fget=None, fset=None, fdel=None, doc=None) -> property attribute 
Property 常见 的 使 用 形式 有 以 下 几 种 : 


。 第 一 种 形式 如 下 : 


class Some_Class(object): 
def TnI(Self 
self._somevalue = 0 
def get value(self): 
return self._somevalue 
def set_value(self, value): 
self._somevalue = value 
def delrattr(Sself ): 
del self._somevalue 
x = property(get_value, set value, del attr, "I am the ''x' property.") 


。 第 二 种 形式 如 下 : 


class Some_Class(object ) : 
_X = None 
def Tn (Se 
self._x = None 
@property 
Ge 人 (EST 
return self. x 
@x.setter 
def x(self, value): 
self. x = value 
@x.deleter 
de 全 ET 
del self. x 


property 的 优势 可 以 简单 地 概括 为 以 下 几 点 : 
e 代码 更 简洁 ， 可 读 性 更 强 。 


。 更 好 的 管理 属性 的 访问 。property 将 对 属性 的 访问 直接 转换 为 对 对 应 的 get、set 等 相关 
函数 的 调用 ， 属 性 能 够 更 好 地 被 控制 和 管理 ， 常 见 的 应 用 场景 如 设置 校 验 、 检 查 赋值 的 
范围 以 及 对 某 个 属性 进行 二 次 计算 之 后 再 返回 给 用 户 或 者 计算 某 个 依赖 于 其 他 属性 的 属 
性 。 创建 一 个 property 实际 上 就 是 将 其 属性 的 访问 与 特定 的 函数 关联 起 来 ， 相 对 于 标准 
属性 的 访问 ，property 的 作用 相当 于 一 个 分 发 器 ， 对 某 个 属性 的 访问 并 不 直接 操作 具体 
的 对 象 ， 而 对 标准 属性 的 访问 没有 中 间 这 一 层 ， 直 接 访 问 存储 属性 的 对 象 。 


。 代码 可 维护 性 更 好 。property 对 属性 进行 再 包装 ， 以 类 似 于 接口 的 形式 呈现 给 用 户 ， 以 
统一 的 语法 来 访问 属性 ， 当 具体 实现 需要 改变 的 时 候 ， 访 问 的 方式 仍然 可 以 保持 一 致 


e 控制 属性 访问 权限 ， 提 高 数据 安全 性 。 如 果 用 户 想 设置 茶 个 属性 为 只 读 : 


class PropertyTlest(object): 
de nanien(selt 
self._ var1i = 20 
@property 
qef x(SeLr). 
return self. vari1 


值得 注意 的 是 ， 使 用 property 并 不 ER 只 读 的 目的 ， 正 如 以 双 下 划 线 命 
令 的 变量 并 不 是 真正 的 私有 变量 一 样 ， 这 些 方法 只 是 在 直接 修改 属性 这 条 道路 上 增加 了 
一 些 障 碍 。 


property 本 质 并 不 是 函数 ， 而 是 特殊 类 ， 既 然 是 类 的 话 ， 那 么 就 可 以 被 继承 ， 因 此 用 户 便 可 
以 根据 自己 的 需要 定义 property : 


def updateanmnetal(seLlf ,othner) 
self. name = other. name _ 
self. doc = other. doc _ 
self. dict .update(other. dict ) 
return Self 


classUsenrproperty(property) 
def _ new_ (cls, fget=None, fset=None, fdel=None, doc=None): 
if fget is not None: 
def get__(obj, objtype=None, name=fget. name  ): 
fegt = getattr(obj, name) 
return fget() 
fget = update meta(_ get , fget) 


hiiSete rs no Nones 
def set__(obj, value, name=fset. name  ): 
fset = getattr(obj, name) 
return fset(value) 
fset = update meta(_ set , fset) 


ffdemrs noE Nones 
def delete (obj, name=fdel. name  ): 
fdel = getattr(obj, name) 
retunnniderae) 
fdel = update meta(_ delete , fdel) 
return property(fget, fset, fdel, doc) 





class CcC(object): 
qefroget(seln 
return self. x 
qefmset(Sselhe XO 
self. x= x 
def delete(self): 
del self. x 
x = UserProperty(get, set, delete) 


上 例 中 UserProperty 继承 自 property， 其 构造 函数 _new_(cls，fget=None，fset=None， 
fdel=None, doc=None) 中 重新 定义 了 fget() 、 fset() 以 及 fdel() 方法 以 满足 用 户 特定 的 
需要 ， 最 后 返回 的 对 象 实 际 还 是 property 的 实例 ， 因 此 用 户 能 够 像 使 用 property 一 样 使 用 
UserProperty 。 


使 用 property 并 不 能 站 正 完全 达到 属性 只 读 的 目的 ， 用 户 仍然 可 以 绕 过 阻碍 来 修改 变量 。 引 
可 行 


完全 
正 实 现 只 读 属 ， 性 的 可 实现 : 


def ro_property(obj, name, value): 
setattr(obj. class , name, property(lambda obj: obj._ dict [" " + name])) 


setattr(obj, " " + name, value) 


class ROClass(object): 
def nsSert namer qvanlabled: 
ro_property(self, "name", name) 
self.available = available 


a = ROClass("read only", True) 
print(a.name) 

a._Article name = "modify" 
print(a. dict ) 
print(ROClass. dict  ) 
print(a.name) 


建议 62 : 掌握 metaclass 


关于 类 的 类 ， 是 类 的 模版 
用 来 控制 如 何 创 建 类 的 ， 正 如 类 是 创建 对 象 的 模版 一 样 
的 实例 为 类 ， 正 如 类 的 实例 为 对 象 


当 使 用 关键 字 class 的 时 候 ，Python 解释 器 在 执行 的 时 候 就 会 创建 一 个 对 象 (这 里 的 对 象 是 

指 类 而 非 类 的 实例 ) 

既然 类 是 对 象 ， 那 么 它 就 有 其 所 属 的 类 型 ， 也 一 定 还 有 什么 东西 能 够 控制 它 的 生成 。 通 过 

type 查看 会 发 现 UserClass 的 类 型 为 type， 而 其 对 象 UserClass() 的 类 型 为 类 A 

同时 我 们 知道 type 还 可 以 这 样 使 用 : 

type( 类 名 ， 父 类 的 元 组 (针对 继承 的 情况 ， 可 以 为 宣 )， 包 含 属性 的 字典 (名称 和 值 ) ) 

type 通 过 接受 类 的 描述 符 作为 参数 返回 一 个 对 象 ， 这 个 对 象 可 以 被 继承 ， 属 性 能 够 被 访问 ， 
它 实际 是 一 个 类 ， 其 创建 由 type 控制 ， 由 type 所 创建 的 对 象 的 class 属性 为 type。 

type 实际 上 是 Python 的 一 个 内 建 元 类 ， 用 来 指导 类 的 生成 。 当 然 ， 除 了 使 用 内 建 元 类 

type， 用 户 也 可 以 通过 继承 type 来 自 定义 元 类 。 


利用 元 类 实现 强制 类 型 检查 : 


普 
疹 


ClasswnypesSseEEernmliogjectbi 
def nit (self, fieldtype): 
self.fieldtype = fieldtype 
def is valid(self, value): 
return isinstance(value, self.fieldtype) 
class TypeCheckMetal(type): 
def newe (cls, name. bases dict): 
return super(TypeCheckMeta, cls). new (cls, name, bases, dict) 
def niten(ols name Dasesr duete)s 
cls. _ fields = {} 
for key, value in dict.items(): 
if isinstance(value, TypeSetter): 


cls._ fields[key] = value 
def SavH(eLEsy): 
print("Hi") 


TypeSetter 用 来 设置 属性 的 类 型 ，TypeCheckMeta 为 用 户 自 定义 的 元 类 ， 才 盖 了 type 元 类 
中 的 _new _() 方法 和 init () 方法 ， 虽然 也 可 以 直接 使 用 TypeCheckMeta(name, bases, 
dict) 这 种 方式 来 创建 类 ， 但 更 为 常见 的 是 在 需要 被 生成 的 类 中 设置 _metaclass 属性 ， 
两 种 用 法 是 等 价 的 : 


class TypeCheck(obyject): 
_ metaclass _ = TypeCheckMeta 
def setattr, (self, key, value): 
If key in selfe fields: 
if not self._ fields[key].is_valid(value): 
raise TypeError("Invalid type for faeld ) 
super(TypeCheck, self)._ setattr__(key, value) 


class MetaTest(TypeCheck): 
name = TypeSetter(str) 
num = TypeSetter(int) 


mt = MetaTest() 
mt.name = "apple" 
mt.num = "test" 


当 类 中 设置 了 _metaclass。 属性 的 时 候 ， 所 有 继承 自 该 类 的 子 类 都 将 使 用 所 设置 的 元 类 来 
指导 类 的 生成 。 
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实际 上 ， 在 新 式 类 中 当 一 个 类 未 设置 _ metaclass _ 属性 的 时 候 ， 它 将 使 用 默认 的 type 元 
类 来 生成 类 。 而 当 该 属性 被 设置 时 查找 规则 如 下 : 


e。 如 果 存 在 dict[" metaclass_"] ， 则 使 用 对 应 的 值 来 构建 类 ; 否则 使 用 其 父 类 


dict[" metaclass "|] 中 所 指定 的 元 类 来 构建 类 9 当 父 类 中 也 不 存在 指定 的 metaclass 
的 情形 下 使 用 默认 元 类 type 。 


写 


e 对 于 古典 类 ， 条 件 1 不 满足 的 情况 下 ， 如 果 存 在 全 局 变量 _ metaclass 。 ， 则 使 用 该 变量 
所 对 应 的 元 类 来 构建 类 ; 否则 使 用 type.ClassType ° 


需要 领 外 提醒 的 是 ， 元 类 中 所 定义 的 方法 为 其 所 创建 的 类 的 类 方法 ， 并 不 属于 该 闫 的 对 象 。 
比如 上 例 中 的 mt.sayHi() 会 抛 出 异常 ， 正 确 调用 方法 为 : MetaTest.sayHi() 。 


什么 情况 下 会 用 到 元 类 ?有 和 句 话 是 这 么 说 的 : 当 你 面临 一 个 问题 还 在 纠结 要 不 要 使 用 元 类 的 
时 候 ， 往 往 会 有 其 他 的 更 为 简单 的 解决 方案 。 


几 个 使 用 元 类 的 场景 : 


。 利用 元 类 来 实现 单 例 模 式 : 


class Singleton(type): 
def nit > (cls name bases, dc 站 
super(Singleton, cls)._ init (name, bases, dic) 
cls.instance = None 
def coallm(cls Sarngs “Kwandey 
if cls.instance is None: 
cls.instance = super(Singleton, cls). call (*args, **kwargs) 
Bihsen 
print("warning: only allowed to create one instance, minstance already 


exists!”) 
return cls.instance 


class MySingleton(object): 
_ metaclass = Singleton 


。 第 二 个 例子 来 源 于 Python 的 标准 库 string.Template.string， 它 提供 简单 的 字符 串 替 换 功 
Ad 
月 已 


° Template("$name $age").substitute({"name":"admin"}, age=26) 


该 标准 库 的 源 代 码 中 就 用 到 了 元 类 ， Template 的 元 类 为 
_TemplateMetaclass ° _TemplateMetaclass 的 人 方法 通过 查找 属性 
(pattern、delimiter 和 idpattern ) 并 将 其 构建 为 一 个 编译 好 的 正则 表达 式 存 放 在 pattern 
属性 中 。 用 户 如 果 需 要 自 定 义 分 隔 符 (delimiter) 可 以 通过 继承 Template 并 履 盖 它 的 类 
属性 delimiter 来 实现 。 
另外 在 Django ORM、AOP 编程 中 也 有 大 量 使 用 元 类 的 情形 。 
谈 谈 关于 元 类 需要 注意 的 几 点 : 

。 区 别 类 方法 与 元 方法 (定义 在 元 类 中 的 方法 ) 。 元 方法 可 以 从 元 类 或 者 类 中 调用 ， 而 不 
能 从 类 的 实例 中 调用 ; 但 类 方法 可 以 从 类 中 调用 ， 也 可 以 从 类 的 实例 中 调用 

e。 多 继承 需要 严格 限制 ， 否 则 会 产生 冲突 。 因 为 Python 解释 器 并 不 知道 多 继承 的 类 是 否 兼 
容 ， 因 此 会 发 出 冲突 警告 。 解 决 冲突 的 办 法 是 重新 定义 一 个 派生 的 元 类 ， 并 在 要 集成 的 
类 中 将 其 _ metaclass _ 属性 设置 为 该 派生 类 。 


建议 63 : 熟悉 Python 对 象 协 议 


因为 Python 是 一 门 动 态 语言 ，Duck Typing 的 概念 遍布 其 中 ， 所 以 其 中 的 Concept 并 不 以 类 
型 的 约束 为 载体 ， 而 另外 使 用 称 为 协议 的 概念 。 在 Python 中 就 是 我 需要 调用 你 某 个 方法 ， 你 
正好 就 有 这 个 方法 。 比 如 在 字符 串 格 式 化 中 ， 如 果 有 占 位 符 %s， 那 么 按照 字符 串 转 换 的 协 
议 ，Python 会 自动 地 调用 相应 对 象 的 _ str _() 方法 。 


除了 _str_() 外 ， 还 有 其 他 的 方法 ， 比 如 
repr () 、_ init () 、_ long_ () 、_ float_ () 、_nonzero () 等 ， 统 称 类 型 转 
换 协 议 。 除 了 类 型 转换 协议 之 外 ， 还 要 许多 其 他 协议 。 





e 用 以 比较 大 小 的 协议 ， 这 个 协议 依赖 于 cmp () ， 与 C 语言 库 函 数 cmp 类 似 ， 当 两 者 
相等 时 ， 返 回 0， 当 self < other 时 返回 负 值 ， 反 之 返回 正 值 。 因 为 这 种 复杂 性 ， 所 以 
Python 又 有 _eq ()、_ne ()、_1t (0)、 gt () 等 方法 来 实现 相等 、 不 等 、 
小 于 和 大 于 的 判定 。 这 也 就 是 Python 对 ==、!=、< 和 > 等 操作 符 的 进行 重 载 的 
支撑 机 制 。 

e 数值 类 型 相关 的 协议 ， 这 一 类 的 函数 比较 多 。 基 本 上 ， 只 要 实现 了 那么 几 个 方法 ， 基 本 
上 就 能 够 模拟 数值 类 型 了 。 人 | 一 个 Python 中 特有 的 概念 : 类 似 
_radd () 的 方法 ， 所 有 的 数值 运算 符 和 位 运算 符 都 是 支持 的 ， 规 则 也 是 一 律 在 前 面 加 
上 前 级 r 即 可 。 





e。 容器 类 型 协议 。 容 器 的 协议 是 非常 浅显 的 ， 既 然 为 容器 ， 那 么 必然 要 有 协议 查询 内 爹 多 
少 对 象 ， 在 Python 中 ， 就 是 要 支持 内 置 函 数 len() ， 通 过 _1en () 来 完成 。 而 
getitem () 、 setitem_() 、 _delitem () 则 对 应 读 、 写 和 删除 ， 也 很 好 理 
解 。 _iter _ () 实现 了 和 迭代 器 协议 ， 而 _reversed () 则 提供 对 内 置 函 数 
有 的 支持 。 容 器 类 型 中 最 有 特色 的 是 对 成 员 关系 的 判断 符 in 和 not in 的 支 
持 ， 这 个 方法 叫 __contains () ， 只 要 支持 这 个 函数 就 能 够 使 用 in 和 not in 运算 符 了 。 


。 可 调用 对 象 协议 。 所 谓 可 调用 对 象 ， 即 类 似 函 数 对 象 ， 能 够 让 类 实例 表现 得 像 函数 一 
样 ， 这 样 就 可 以 让 每 一 个 函数 调用 都 有 所 不 同 。 


class Functor(object): 
def inntm(Selt. CoOMexEk 
self._ context = context 
def callenl(seli 
print("do something with {}".format(self._context)) 
lai_functor = Functor("lai") 
yong_functor = Functor("yong") 
lai_functor() 
yong_functor() 


e。 与 可 调用 对 象 差不多 的 ， 还 有 一 个 可 哈 希 对 象 ， 它 是 通过 _hash () 方法 来 支持 
hash() 这 个 内 置 函 数 的 ， 这 在 创建 自己 的 类 型 时 非常 有 用 ， 因 为 只 有 支持 可 哈 希 协议 的 
类 型 才能 作为 dict 的 键 类 型 (不 过 只 要 继承 自 object 的 新 式 类 就 默认 支持 了 ) 


e 描述 符 协 议和 属 ， 隆 交 互 协议 ( _ getattr_ () 、 _ setattr_ () 、 _ delattr_() ) ， 还 
有 上 下 文 管理 器 协议 ， 也 就 是 对 with 语句 的 支持 ， 这 个 协议 通过 _enter _ () 和 
exit () 两 个 方法 来 实现 对 资源 的 清理 ， 确 保 资 源 无 论 在 什么 情况 下 都 会 正常 清理 。 


协议 不 像 C++、Java 等 语言 中 的 接口 ， 它 更 像 是 声明 ， 没 有 语言 上 的 约束 力 。 


建议 64 : 使 用 操作 符 重 载 实现 中 组 语 
模拟 C++ 的 流 输出 ， 是 一 种 对 特性 的 滥用 ， 不 应 提倡 。 


管道 的 处 理 非 常 清晰 ， 因 为 它 是 中 组 语法， 而 我 们 常用 的 Python 是 前 组 语法 ， 比 如 类 似 的 
Python 代码 应 该 是 sort(1s()，reverse=True) 。 


管道 符号 在 Python 中 ， 也 是 或 符号 ， 由 Julien Palard 开发 了 一 个 pipe 库 ， 这 个 pipe 库 的 核 
心 代码 只 有 几 行 ， 就 是 重 载 了 _ror () 方法 : 


class Pipe: 
def Tnaem(tselh functronmne 
self.function = function 
def ormnl(selft ofhnerny: 
return self.function(other) 
def callm(selft "args, “kwargs)e 
return Pipe(lambda x: self.function(x, *args, **kwargs)) 


这 个 Pipe 类 可 以 当成 函数 的 decorator 来 使 用 : 


@Pipe 
def where(iterable, predicate): 
return (x for x in iterable if (predicate(x))) 


pipe 库 内置 了 一 堆 这 样 的 处 理 有 函数 ， 比如 sum 、 select 、 where 等 函数 尽 在 其 中 : 


fib() | take while(lambda x: x < 1000000) \ 
where(lambda x: x % 2) \ 
select(lambda x: x * X) \ 


sum() 


这 段 代码 就 是 找 出 小 于 1000000 的 辈 波 那 契 数 ， 并 计算 其 中 的 偶数 的 平方 之 和 。 
此 外 ，pipe 是 惰性 求 值 的 ， 所 以 我 们 完全 可 以 弄 一 个 无 穷 生 成 器 而 不 用 担心 内 存 被 用 完 。 


除了 处 理 数 值 很 方便 ， 用 它 来 处 理 文 本 也 一 样 简单 。 比 如 读 取 文 件 ， 统 计 文件 中 每 个 单词 出 
现 的 次 数 ， 然 后 按照 次 数 从 高 到 低 对 单词 排序 : 


from future_ import print_function 
from re import split 
from pipe import * 
with open("test descriptor.py") as f: 

print(f.read() 
Pipe(lambda x: split("/W+", Xx)) 
Pipe(lambda x (Ifor a anx of TSstrap())) 
groupby(lambda x:x) 
select(lambda x:(x[0], (x[1] | count))) 
sort(key=lambda x: x[1], reverse=True) 


建议 65 : 熟悉 Python 的 迭代 器 协议 


Python 的 迭代 器 集成 在 语言 之 中 ， 不 像 C++ 中 那样 需要 专门 去 理解 这 一 个 概念 。 


昌 是 ， nh EE 够 隐藏 细节 。 首 先 介 绍 一 下 iter() 函数 ，iter() 可 以 输入 两 
实 参 ， 第 二 个 可 选 参数 可 以 o i 函数 返回 一 个 迭代 器 对 象 ， 接 受 的 参数 是 一 个 实 
了 _iter () 方法 的 容器 或 从 es er ge _ getitem () 方法 的 容 

) 。 对 于 容器 而 言 _ iter_() ee 回 一 个 迁 代 器 对 象 ， 而 对 迭代 器 而 言 ， 它 的 
_iter () 方法 返回 其 自身 。 


和 迭代 器 协议 ， 所 谓 协 议 ， 是 一 种 松散 的 约定 ， 并 没有 相应 的 接口 定义 ， 所 以 把 协议 简单 归纳 
如 下 : 


e。 实现 _ iter_() A 
e 实现 next() 方法 ， 返回 当前 的 元 素 ， 并 指向 下 一 个 元 素 的 位 置 ， 如 果 当 前 位 置 已 无 元 
素 ， 则 抛 出 StopIteration 异常 。 


其 实 for 语句 就 是 对 获取 容器 的 迭代 器 、 调 用 和 迭代 器 的 next() 方法 以 及 对 stopIteration 
进行 处 理 等 流程 进行 封装 的 语法 糖 (类似 的 语法 糖 还 有 in/not in 语句 ) 。 


迭代 器 最 大 的 好 处 是 定义 了 统一 的 访问 容器 (或 集合 ) 的 统一 接口 ， 所 以 程序 员 可 以 随时 定 

义 自己 的 迭代 器 ， 只 要 实现 了 迭代 器 协议 即 可 。 除 此 之 外 ， 迭 代 器 还 有 惰性 求 值 的 特性 ， 它 

仅 可 以 在 和 迭代 至 当前 元 素 时 才 计 和 莫 (或 读 取 ) 该 元 素 的 值 ， 在 此 之 前 可 以 不 存在 ， 在 此 之 后 

0 毁 ， 也 就 是 说 不 需要 在 遍历 之 前 实现 准备 好 整个 迭代 过 程 中 的 所 有 元 素 ， 所 以 非常 
遍历 无 穷 个 元 素 的 集合 或 或 巨大 的 事物 ( 辈 波 那 契 数列 、 文 件 ) 。 


和 迭代 器 在 一 些 应 用 场景 更 省 CPU 计算 资源 ， 所 以 在 编写 代码 中 应 当 多 多 使 用 迭代 器 协议 ， 避 
免 劣 化 代码 。 从 Python2.3 版 本 开始 ，itertools 成 为 了 标准 库 的 一 员 已 经 充分 印证 这 个 观 
点 


itertools 的 目标 是 提供 一 系列 计算 快速 、 内 存 高 效 的 函数 ， 这 些 函 数 可 以 单独 使 用 ， 也 可 
以 进行 组 合 ， 这 个 模块 受到 了 Haskell 等 函数 式 编程 语言 的 局 发， 所 以 大 量 使 用 itertools 
模块 中 的 函数 的 代码 ， 看 起 来 有 ， 点 像 函 数 式 编程 语言 言 。 上 比如 sum(imap(operator.mul, vector1, 


vector2)) 能 够 用 来 运行 两 个 向 量 的 对 应 元 素 乘积 之 和 。 


itertools 最 为 人 所 熟知 的 版 本 ， 应 该 算是 zip、map、filter、slice 的 替 

代 ， izip (izip longest) 、 imap (startmap) 、 ifilter (ifilterfalse) 、 islice ， 它 们 与 
原来 的 那 几 个 内 置 骂 数 有 一 样 的 功能 ， 只 是 返回 的 是 迭代 器 (在 Python3 中 ， 新 的 函数 彻底 
蔡 换 掉 了 昌 郊 数 ) 


除了 对 标准 函数 的 替代 ， itertools 还 提供 了 以 下 几 个 有 用 的 函数 : chain() 用 以 同时 连续 
地 和 迭代 多 个 序列 ; compress() 、 dropwhile() 和 takewhile() 能 用 遂 选 序列 元 素 ; tee() 
就 像 同 名 的 UNIX 应 用 程序 ， 对 序列 作 n 次 迭代 ;而 groupby 的 效果 类 似 SQL 中 相同 拼写 
的 关键 字 所 带 的 效果 。 


[k for k, g in groupby("AAAABBBCCDAABB")] -->ABCDAB 
[list(g) for k, g in groupby("AAAABBBCCD")] --> AAAA BBB CC D 


除了 这 些 针 对 有 限 元 素 的 迭代 帮助 函数 之 外 还 有 count() 、 cycle() 、 repeat () 等 函数 
产生 无 穷 序列 ， 这 3 个 函数 就 分 别 可 以 产生 算术 递增 数列 、 无 限 重复 实 参 的 序列 和 重复 产生 
同一 个 值 的 序列 。 
还 有 几 个 组 合 函 数 : 

© product() : 计算 m 个 序列 的 n 次 笛 卡 尔 积 

e permutations() :产生 全 排列 


© combinations() : 产生 无 重复 元 素 的 组 合 
© combinations with_replacement() : 产生 有 重复 元 素 的 组 合 


>>> list(product("ABCD", repeat=2)) 
LR A (AC (AD EE 0 
LB Da) (C0 'A'), (人 Co Be) (Cr Co) 人 Ce 4D (De SAV) (人 Die "BS (ODS 
1 'C'), ('D', 'D')] 
>>> list(permutations("ABCD", 2)) 
[OR Be (AD a (BD (A 
Ca Ba) (EC uD (CD VAP) (uD Be) (D> a) 
>>> list(combinations("ABCD", 2)) 
EA EO Ae OD GE BD cD 
>>> list(combinations_with_replacement("ABCD", 2)) 
CA A A 0 (0 (B00 BD 
Ge Gon (Ce Do) (人 Di Di 的 证 
>>> for i in product("ABC", "123", repeat=2): 

print("".join(i)) 


# product() 可 以 接受 多 个 序列 
AT1A1I 
ATA2 
A1A3 
AT1B1I 


Ess 一 <0 
建议 66 : 熟悉 Python 的 生成 器 

生成 器 ， 就 是 按 一 定 的 算法 生成 一 个 序列 。 和 迭代 器 虽然 在 某 些 场景 表现 得 Wa 
非 生成 器 ; 反而 是 生成 器 实现 了 和 迭代 器 协议 的 ， 可 以 在 一 定 程度 上 看 作 和 迭代 


如 果 一 个 函数 ， 使 用 了 yield 语 锋 ， 那 么 它 就 是 一 个 生成 器 函数 。 当 调用 生成 器 函数 时 ， 它 返 
回 一 个 迭代 器 ， 不 过 这 个 迭代 器 是 以 生成 器 对 象 的 形式 出 现 的 ， 这 个 对 葵 带 有 _ iter_() 
和 next() 方法 。 


每 一 个 生成 器 函数 调用 之 后 ， 它 的 函数 并 不 执行 ， 而 是 到 第 一 次 调用 next() 的 时 候 才 开始 
执行 。 


当 第 一 次 调用 next() 方法 时 ， 生 成 器 函数 开始 执行 ， 执 行 到 yield 表达 式 为 止 。 


直率 地 说 ， send() 方法 很 绕 ， 其 实 send() 是 全 功能 版 本 的 next() ， 或 者 说 next() 是 
send() 的 快捷 方式 ， 相 当 于 send(None) 。yield 表达 式 有 一 个 返回 值 ， send() 方法 的 作用 
就 是 控制 这 个 返回 值 ， 使 得 yield 表达 式 的 返回 值 是 它 的 实 参 。 


除了 能 yield 表达 式 的 “返回 值 " 之 外 ， 也 可 以 让 它 抛 出 异常 ， 这 就 是 throw() 方法 的 能 力 。 对 
常规 业务 逻辑 的 代码 来 说 ， 对 特定 的 异常 有 很 好 的 处 理 (比如 将 异常 信息 写 入 日 志 后 优雅 
回 ) ， 从 而 实现 从 外 部 影响 生成 器 内 部 的 控制 流 。 


当 调 用 close() 方法 时 ， yield 表达 式 就 抛 出 GeneratorExit 措 常 ， 生 成 器 对 象 会 自行 处 理 
这 个 异常 。 当 调用 close() 方法 ， 再 次 调用 next() 、 send() 会 使 生成 器 对 象 抛 出 
StopIteration 异常 。 换 言 之 ， 这 个 生成 器 对 象 已 经 不 再 可 用 。 当 生成 器 对 象 被 GC 回收 
时 ， 会 自动 调用 close() 。 


生成 器 还 有 两 个 很 棒 的 用 处 ， 其 中 之 一 就 是 实现 with 语句 的 上 下 文 管理 协议 ， 利 用 的 是 调用 
生成 器 函数 时 函数 体 并 不 执行 ， 当 第 一 次 调用 next() 方法 时 才 开 始 执 行 ， 并 执行 到 yield 表 
达 式 后 中 止 ， 直 到 下 一 次 调用 next() 方法 这 个 特性 ; 其 二 是 实现 协 程 ， 利 用 的 是 

send() 、 throw() 、 close() 等 特性 9 


上 下 文 管理 器 协议 ， 其 实 就 是 要 求 类 实现 _enter () 和 exit () 方法 ， 但 是 生成 器 对 
得 并 没有 这 两 个 方法 > 所 以 contextlib 提供 了 contextmanager 鸥 数 来 适 配 这 两 种 协议 : 


from contextlib import contextmanager 

@contextmanager 

def tag(name ) : 
print("<{}>".format(name)) 
yield 
print("</{}>".format(name)) 

>>> with tag("h1"): 
print("foo") 

<h1> 

foo 

</h1> 


通过 contextmanager 对 next() 、 throw() 、 close() 的 封装 ，yield 大 大 简化 了 上 下 文 管 
理 器 的 编程 复杂 度 ， 对 提高 代码 可 维护 性 有 着 极 大 的 意义 。 除 此 之 外 ，yield 和 
contextmanager 也 可 以 用 以 “ 池 ?” 模 式 中 对 资源 的 管理 和 回收 。 


建议 67 : 基于 生成 器 的 协 程 及 greenlet 


协 程 ， 又 称 微 线程 和 纤 程 等 ， 据 说 源 于 Simula 和 Modula-2 语言 ， 现 代 编 程 语言 基本 上 都 支 
持 这 个 特性 ， 比 如 Lua 和 ruby 都 有 类 似 的 概念 。 协 程 往往 实现 在 语言 的 运行 时 库 或 虚拟 机 
中 ， 操 作 系 统 对 其 存在 一 无 所 知 ， 所 以 又 被 称 为 用 户 空间 线程 或 绿色 线程 。 又 因为 大 部 分 协 
程 的 实现 是 协作 式 而 非 抢占 式 的 ， 需 要 用 户 自己 去 调度 ， 所 以 通常 无 法 利用 多 核 ， 但 用 来 执 
行 协作 式 多 任务 非常 合适 。 用 协 程 来 做 的 东西 ， 用 线程 或 进程 通常 也 是 一 样 可 以 做 的 ， 但 往 
往 多 了 许多 加 锁 和 通信 的 操作 。 

基于 生产 着 消费 者 模型 ， 比 较 抢占 式 多 线程 编程 实现 和 协 程 编程 实现 。 线 程 实现 至 少 有 两 点 
硬 伤 : 


。 对 队列 的 操作 需要 有 显 式 / 隐 式 (使 用 线程 安全 的 队列 ) 的 加 锁 操 作 。 
。 消费 者 线程 还 要 通过 sleep 把 CPU 资源 适时 地 “谦让 "给 生产 者 线程 使 用 ， 其 中 的 适时 只 
能 静态 地 使 用 经 验 值 。 


而 使 用 协 程 可 以 比较 好 地 解决 : 


# 队列 容器 
q = new queue 
# 生产 者 协 程 
loop 
while q is not full 
create some new items 
add the items to q 
yield to consume 
# 消费 者 协 程 
Joop 
while q is not empty 
remove some items from q 
use the items 
yield to produce 


但 是 这 样 做 ， 损 失 了 利用 多 核 CPU 的 能 力 。 


具体 的 生成 器 函数 代码 : 


def consumer(): 
Whenr tes 
line = yield 
print(line.upper()) 
def producter(): 
with open("/var/log/apache2/error_log", "r") as f: 
for i, line in enumerate(f): 
yield line 
print("processed line {}".format(i)) 
c = consumer() 
c.next() 
for line in producter(): 
c.send(line) 


协 程 ， 每 输出 一 行 大 写 的 文字 后 都 有 一 行 来 自主 程序 的 处 理 信息 ， 不 会 像 抢占 式 的 多 线程 程 
序 那样 “ 乱 序 "。Python2.X 版 本 的 生成 器 无 法 实现 所 有 的 协 程 特性 ， 是 因为 缺乏 对 协 程 之 间 复 
杂 关 系 的 支持 。 比 如 一 个 yield 协 程 依赖 另 一 个 yield 协 程 ， 且 需要 由 最 外 层 往 最 内 层 进 行 伟 
值 的 时 候 ， 就 没有 解决 办 法 。 


这 个 问题 直到 Python3.3 增加 了 yield from 表达 式 以 后 才 得 以 解决 ， 通 过 yield from ， 外 
层 的 生成 器 在 接收 到 send() 或 throw() 调用 时 ， 能 够 把 实 参 直接 传 入 内 层 生成 器 。 


因为 Python2.x 版 本 对 协 程 的 支持 有 限 ， 而 协 程 又 是 非常 有 用 的 特性 ， 所 以 很 多 Pythonista 
就 开始 寻求 语言 之 外 的 解决 方案 ， 并 编写 了 一 系列 的 程序 库 ， 其 中 最 受 欢 迎 的 是 greenlet 。 


greenlet 是 一 个 C 语言 编写 的 程序 库 ， 它 与 yield 关键 字 没 有 密切 的 关系 。greenlet 这 个 库 里 
最 为 关键 的 一 个 类 型 就 是 PyGreenlet 对 象 ， 它 是 一 个 C 结构 体 ， 每 一 个 PyGreenlet 都 可 以 
看 到 一 个 调用 栈 ， 从 它 的 入 口 函 数 开 始 ， 所 有 的 代码 都 在 这 个 调用 栈 上 运行 。 它 能 够 随时 记 
录 代 码 运 行 现场 ， 并 随时 中 止 ， 以 及 恢复 。 它 跟 yield 所 能 够 做 到 的 相似 ， 但 更 好 的 是 它 提供 
从 一 个 PyGreenlet 切换 到 另 一 个 PyGreenlet 的 机 制 。 


协 程 虽然 不 能 充分 利用 多 核 ， 但 它 跟 异步 |/O 结合 起 来 以 后 编写 IO 密集 型 应 用 非常 容易 ， 能 
够 在 同步 的 代码 表面 下 实现 异步 的 执行 ， 其 中 的 代表 当 属 将 greenlet 与 libevent/libev 结合 起 
来 的 gevent 程序 库 ， 它 是 Python 网 络 编程 库 。 最 后 ， 以 gevent 并 发 查询 DNS 的 例子 为 

例 ， 使 用 它 进 行 并 发 查询 n 个 域名 ， 能 够 获得 几乎 n 倍 的 性 能 提升 : 


Import gevent 

from gevent import socket 

urls = ["www.google.com", "www.example.com", "www.python.org"] 
jobs = [gevent.spawn(socket.gethostbyname, url) for url in urls] 
gevent.joinall(jobs, timeout=2) 

print([job.value for job in jobs]) 


建议 68 : 理解 GIL 的 局 限 性 


多 线程 Python 程序 运行 的 速度 比 只 有 一 个 线程 的 时 候 还 要 慢 ， 除 了 程序 本 身 的 并 行 性 之 外 ， 
很 大 程度 上 与 GIL 有 关 。 由 于 GIL 的 存在 ， 多 线程 编程 在 Python 中 并 不 理想 。GIL 被 称 为 全 
局 解释 器 锁 (Global Interpreter Lock) ， 是 Python 虚拟 机 上 用 作 互 斥 线程 的 一 种 机 制 ， 它 的 
作用 是 保证 任何 情况 下 虚拟 机 中 只 会 有 一 个 线程 被 运行 ， 而 其 他 线程 都 处 于 等 待 GIL 锁 被 释 
放 的 状态 。 不 管 是 在 单 核 系统 还 是 多 核 系统 中 ， 始 终 只 有 一 个 获得 了 GIL 锁 的 线程 在 运行 ， 
每 次 遇 到 IO 操作 便 会 进行 GIL 锁 的 释放 。 


但 如 果 是 纯 计算 的 程序 ， 没 有 1/O 操作 ， 解 释 器 则 会 根据 sys.setcheckinterval 的 设置 来 自动 
进行 线程 间 的 切换 ， 默 认 情 况 下 每 隔 100 个 时 钟 (这 里 的 时 钟 指 的 是 Python 的 内 部 时 钟 ， 对 
应 于 解释 器 执行 的 指令 ) 就 会 释放 GIL 锁 从 而 轮换 到 其 他 线程 的 执行 。 


在 单 核 CPU 中 ，GIL 对 多 线程 的 执行 并 没有 太 大 影响 ， 因 为 单 核 上 的 多 线程 本 质 上 就 是 顺序 
执行 的 。 但 对 于 多 核 CPU， 多 线程 并 不 能 站 正 发 挥 优势 带 来 效率 上 明显 的 提升 ， 甚 至 在 频繁 
IO 操作 的 情况 下 由 于 存在 需要 多 次 释放 和 中 请 GIL 的 情形 ， 效 率 反而 会 下 降 。 


鉴于 Python 中 对 象 的 管理 与 引用 计数 器 ， 在 Python 解释 器 中 引入 了 GIL， 以 保证 对 虚拟 机 
内 部 共享 资源 访问 的 互 斥 性 。GIL 的 引入 确实 使 得 多 线程 不 能 再 多 核 系统 中 发 挥 优势 ， 但 它 也 
带 来 了 一 些 好 处 : 大 大 简化 了 Python 线程 中 共享 资源 的 管理 ， 在 单 核 CPU 上 ， 由 于 其 本 质 
是 顺序 执行 的 ， 一 般 情 况 下 多 线程 能 够 获得 较 好 的 性 能 。 此 外 ， 对 于 扩展 的 C 程序 的 外 部 调 
用 ， 即 使 其 不 是 线程 安全 的 ， 但 由 于 GIL 的 存在 ， 线 程 会 阻塞 直到 外 部 调用 函数 返回 ， 线 程 
安全 不 再 是 一 个 问题 。 


针对 Python1.5，Greg Stein 发 布 了 一 个 补丁 ， 该 补丁 中 GIL 被 完全 移 除 ， 使 用 高 粒度 的 锁 
来 代替 ， 然 而 多 核 多 线程 速度 的 提升 并 没有 随 着 核 数 的 增加 而 线性 增长 ， 反 而 给 单线 程 程序 
的 执行 速度 带 来 了 一 定 的 代价 ， 速 度 大 约 降低 了 40%。 在 Python3.2 中 重新 实现 了 GIL， 其 
实现 机 制 主要 集中 在 两 个 方面 : 一 方面 是 使 用 固定 的 时 间 而 不 是 固定 数量 的 操作 指令 来 进行 
线程 的 强制 切换 ; 另 一 个 方面 是 在 线程 释放 GIL 后 ， 开 始 等 待 ， 直 到 某 个 其 他 线程 获取 GIL 
后 ， 再 开始 尝试 去 获取 GIL， 这 样 虽然 可 以 避免 此 前 获得 GIL 的 线程 ， 不 会 立即 再 次 获取 
GIL， 但 仍然 无 法 保证 优先 级 高 的 线程 优先 获取 GIL。 这 种 方式 只 能 解决 部 分 问题 ， 并 未 改变 
GIL 的 本 质 。 


Python 提供 了 其 他 方式 可 以 绕 过 GIL 的 局 限 ， 比 如 使 用 多 进程 multiprocess 模块 或 者 采用 C 
语言 扩展 的 方式 ， 以 及 通过 ctypes 和 C 动态 库 来 充分 利用 物理 内 核 的 计算 能 力 。 


建议 69 : 对 象 的 管理 与 垃圾 回收 


垃圾 回收 功能 ， 可 以 自动 管理 内 存 的 分 配 与 回收 。 


Python 中 内 存 管理 的 方式 : Python 使 用 引用 计数 器 (Reference counting ) 的 方法 来 管理 内 
存 中 的 对 象 ， 即 针对 每 一 个 对 象 维护 一 个 引用 计数 值 来 表示 该 对 象 当 前 有 多 少 个 引用 。 当 其 

他 对 象 引 用 该 对 象 时 ， 其 引用 计数 会 增加 1， 而 删除 一 个 队 当 前 对 象 的 引用 ， 其 引用 计数 会 减 
1。 只 有 当 引 用 计数 的 值 为 0 时 的 时 候 该 对 象 才 会 被 垃圾 收集 器 回收 ， 因 为 它 表 示 这 个 对 象 不 
再 被 其 他 对 象 引 用 ， 是 个 不 可 达 对 象 。 引 用 计数 算法 最 明显 的 缺点 是 无 法 解决 循环 引用 的 问 

题 ， 即 两 个 对 象 相互 引用 。 


循环 引用 常常 会 在 列表 、 元 组 、 字 典 、 实 例 以 及 函数 使 用 时 出 现 。 对 于 由 循环 引用 而 导致 的 
内 存 泄 漏 的 情况 ， 可 以 使 用 Python 自 带 的 一 个 gc 模块 ， 它 可 以 用 来 跟踪 对 象 的 "入 引用 
(incoming reference)“ 和 ”出 引用 (outgoing reference ) ”， 并 找 出 复杂 数据 结构 之 间 的 循环 
引用 ， 同 时 回收 内 存 垃圾 。 有 两 种 方式 可 以 触发 垃圾 回收 : 一 种 是 通过 显 式 地 调用 
gc.collect() 进行 垃圾 回收 ; 还 有 一 种 是 在 创建 新 的 对 象 为 其 分 配 内 存 的 时 候 ， 检 查 
threshold 阅 值 ， 当 对 象 的 数量 超过 threshold 的 时 候 便 自动 进行 垃圾 回收 。 上 默认 情况 下 阅 值 
设 为 (700，10，10) ， 并 且 gc 的 自动 回收 功能 是 开启 的 ， 这 些 可 以 通过 gc.isenabled() 
查看 。 


import gc 
print(gc.isenabled()) 
print(gc.get_threshold()) 


一 个 解决 循环 引用 内 存 回收 的 示例 : 


def main(): 
collected = gc.collect() 
print("Garbage collector before running: collected {} objects.".format(collected)) 


print("Creating reference cycles...") 
A = Leak() 

B = Leak() 

A.b=B 

B.a = A 

A = None 

B = None 


collected = gc.collect() 
print(gc.garbage) 
print("Garbage collector after running: collected {} objects".format(collected)) 


ai name == "main 





ret = main() 
sys.exit(ret) 


gc.garbage 返回 的 是 由 于 循环 引用 而 产生 的 不 可 达 的 垃圾 对 象 的 列表 ， 输 出 为 空 表示 内 存 中 
此 时 不 存在 垃圾 对 象 。 gc.collect() 显示 所 有 收集 和 销毁 的 对 旬 的 数目 ， 此 处 为 4 (2 个 对 
象 A、B， 以 及 其 实例 属性 dict) 。 


如 果 在 类 Leak 中 添加 析 构 方法 _ del () ， 会 发 现 gc.garbage 的 输出 不 再 为 室 ， 而 是 对 象 
A、B 的 内 存 地 址 ， 也 就 是 说 这 两 个 对 象 在 内 存 中 仍然 以 "垃圾 ?的 形式 存在 。 


实际 上 当 存 在 循环 引用 并 且 当 这 个 环 中 存在 多 个 析 构 方法 时 ， 垃 圾 回收 器 不 能 确定 对 象 析 构 
的 顺序 ， 所 以 为 了 安全 起 见 仍然 保持 这 些 对 象 不 被 销毁 。 而 当 环 被 打破 时 ，gc 在 回收 对 象 的 
时 候 便 会 再 次 自动 调用 _del_() 方法 。 


gc 模块 同时 支持 DEBUG 模式 ， 当 设置 DEBUG 模式 之 后 ， 对 于 循环 引用 造成 的 内 存 泄 漏 ， 
gc 并 不 释放 内 存 ， 而 是 输出 更 为 详细 的 诊断 信息 为 发 现 内 存 泄漏 提供 便利 ， 从 而 方便 程序 员 
进行 修复 。 更 多 gc 模块 可 以 参考 文档 


第 7 章 使 用 工具 辅助 开发 


Python 项 目的 开发 过 程 ， 其 实 就 是 一 个 或 多 个 包 的 开发 过 程 ， 而 这 个 开发 过 程 又 由 和 包 的 安 
装 、 管 理 、 测 试 和 发 布 等 多 个 节点 构成 ， 所 以 这 是 一 个 复杂 的 过 程 ， 使 用 工具 进行 辅助 开发 
有 利于 减少 流程 损耗 ， 提 升 生产 力 。 比 如 setuptools 、pip、paster 、nose 和 Flask-PyPI- 


Proxy 等 © 


建议 70 : 从 PyPI 安装 包 


PyPl 全 称 Python Package Index， 直 译 过 来 就 是 “Python 包 索 引 ”， 它 是 Python 编程 语言 的 
软件 仓库 ， 类 似 Perl 的 CPAN 或 Ruby 的 Gems。 可 以 通过 包 的 名 字 查 找 、 下 载 、 安 装 PyPI 
上 的 包 。 对 于 包 的 作者 ， 在 PyP| 上 注册 账号 后 ， 还 可 以 登记 、 更 新 、 上 传 包 等 。 


PyPl 有 良好 的 镜像 机 制 ， 可 以 方便 地 在 全 球 各 地 架设 自 有 镜像， 目前 可 用 的 几 个 镜像 列 
出 在 PyPI Mirrors 页 面 上 ， 而 各 个 镜像 的 同步 情况 可 以 在 专门 的 网 站 上 看 到 。 豆 只 网 架 
设 了 一 个 镜像 ， 地 址 是 http://pypi.douban.com ， 访 问 速 度 很 快 ， 使 用 pip 的 --index 


为 包 在 PyPl 上 的 主页 的 URL 都 是 https://pypi.python.org/pypi/{package} 的 形式 ， 所 
以 在 知道 包 名 的 情况 下 ， 可 以 直接 手动 输入 URL 
setuptools ， 在 Ubuntu Linux 上 ， 可 以 使 用 apt 安装 这 个 包 : 
sudo aptitude install python-setuptools 
其 他 操作 系统 大 同 小 异 ， 运 行 其 相应 的 包 管 理 软件 就 可 以 安装 。 但 如 果 使 用 MS Windows ， 
则 需要 去 它 的 主页 下 载 然后 手动 安装 。 
操作 系统 对 应 的 软件 仓库 中 的 setuptools 版 本 通常 比较 低 ， 所 以 安装 完成 以 后 ， 最 好 执行 
以 下 命令 将 其 更 新 到 最 新 版 本 : 
easy_install -U setuptools 


setuptools 是 来 自 PEAK (Python Enterprise Application Kit， 一 个 致力 于 提供 Python 开发 
企业 级 应 用 工具 包 的 项 目 ) ， 由 一 组 发 布 工具 组 成 ， 方 便 程序 员 下 载 、 构 建 、 安 装 、 升 级 和 
卸载 Python 包 ， 它 可 以 自动 处 理 包 的 依赖 关系 。 


因为 PEAK 发 展 停滞 ， 累 及 setuptools 有 好 几 年 没有 更 新 ， 所 以 有 了 一 个 分 支 项 目 ， 称 
为 distribute， 很 长 一 段 时 间 里 ， 运 行 easy install -U setuptools 更 新 安装 的 其 实 是 
distribute。 在 2013 年 年 初 ，distribute 合并 到 setuptools， 回 归 主 分 支 了 ， 而 distribute 
项 目 也 就 不 再 维护 了 。 


安装 setuptools 之 后 ， 就 可 以 运行 easy_install 命令 了 8 


建议 71 :使 用 pip 和 yolk 安装、 管理 包 

setuptools 有 几 个 缺点 ， 比 如 功能 缺失 (不 能 查看 已 经 安装 的 包 、 不 能 删除 已 经 安装 的 
包 ) ， 也 缺乏 对 git、hg 等 版 本 控制 系统 的 原生 支持 。 

pip 使 用 子 命令 形式 的 CLI 接口 。 

【 坑 驳 第 201 页 缺失 了 ，yolk 介绍 没 了 】 

下 面 介绍 的 是 pip 还 不 具备 的 功能 : 


yolk --entry-map <package> 可 以 显示 包 注 册 的 所 有 入 口 点 ， 这 样 可 以 了 解 到 安装 的 包 都 提供 
了 哪些 命令 行 工 具 ， 或 者 支持 哪些 基于 entry-point 的 插件 系统 。 可 以 使 用 --entry-points 
参数 查看 哪些 包 实现 了 某 一 个 包 的 插件 协议 。 


如 果 使 用 的 是 桌面 版 的 操作 系统 ， 利 用 yolk -H <package> 可 以 打开 一 个 浏 览 器 ， 并 将 你 指 
定 的 包 显 示 在 PyPl 上 的 主页 ， 从 此 告别 手动 拼接 URL 的 历史 。 


建议 72 : 做 paster 创建 包 


个 人 编写 的 库 ， 最 好 是 像 第 三 方 库 一 样 ， 可 以 方便 地 下 载 、 安 装 、 升 级 、 印 载 ， 也 就 是 说 能 
够 放 到 PyPI 上 面 ， 也 能 够 很 好 地 跟 pip 或 者 yolk 这 样 的 工具 集成 。Python 提供 了 这 方面 的 
支持 ， 那 即 是 distutils 标准 库 ， 至 少 提供 了 以 下 几 方 面 的 内 容 : 


。 支持 包 的 构建 、 安 装 、 发 布 (打包 ) 

。 支持 PyP| 的 登记 、 上 传 

e。 定义 了 扩展 命令 的 协议 ， 包 括 distutils.cmd.Command 基 类 、 distutils.commands 和 
distutils.key_words 等 入 口 点 ， 为 setuptools 和 pip 等 提供 了 基础 设施 9 


要 使 用 distutils， 按 习惯 需要 编写 一 个 setup.py 文件 ， 作 为 后 续 操 作 的 入 口 点 。 它 的 内 容 如 
下 二 


from distutils.core import Setup 

setup(name="arithmetic", 
version='1.0', 
py_modules=["your_script_name"], 


) 


setup.py 文件 的 意义 是 执行 时 调用 distutils.core.setup() 函数 ， 而 实 参 是 通过 命名 参数 
指定 的 。name 参数 指定 的 是 包 名 ; version 指定 的 是 版 本 ; 而 py_modules 参数 是 一 个 序列 
类 型 ， 里 面包 含 需要 安装 的 Python 文件 。 

编写 好 Setup .py 文件 以 后 ， 就 可 以 使 用 python setup.py install 进行 安装 了 。 
安装 成 功 后 可 以 使 用 yolk 查看 一 下 : 


yolk -1 | grep your_script_name 
distutils 还 带 有 其 他 命令 ， 可 以 通过 python setup.py --help-commands 进行 查询 。 


若 要 把 包 提交 到 PyPl， 还 要 遵循 PEP241， 给 出 足够 多 的 元 数据 才 行 ， 比 如 对 包 的 简短 描 
述 、 详 细 描 述 、 作 者 、 作 者 邮箱 、 主 页 和 授权 方式 等 。 包 含 太 多 内 容 了 ， 如 果 每 一 个 项 目 都 
手写 很 困难 ， 最 好 找 一 个 工具 可 以 自动 创建 项 目的 setup.py 文件 以 及 相关 的 配置 、 目 录 
等 。Python 中 做 这 种 事 的 工具 有 好 几 个 ， 做 得 最 好 的 是 pastescript 。 pastescript 是 一 个 
有 着 良好 插件 机 制 的 命令 行 工 具 ， 安 装 以 后 就 可 以 使 用 paster 命令 ， 创 建 适 用 于 
setuptools 的 包 文件 结构 。 


安装 好 pastescript 以 后 可 以 看 到 它 注册 了 一 个 命令 行 入 口 paster (还 有 许多 插件 协议 的 实 
现 ) 。， yolk --entry-map pastescript 


接 下 来 讨论 一 下 paster 怎么 用 


J 


paster --help ，paster 支持 多 个 命令 ， 首 先 要 学 习 的 是 create。create 命令 用 于 根据 模板 创 
建 一 个 Python 包 项 目 ， 创 建 的 项 目 文件 结构 可 以 使 用 setuptools 直接 构建 ， 并 且 支 持 
setuptools 扩展 的 distutils 命令 ， 如 develop 命令 等 S 


使 用 paster help create 查看 帮助 ， 可 以 看 到 --template 参数 用 以 指定 使 用 的 模板 ， 可 以 
使 用 --1list-templates 查询 一 下 目前 安装 的 模板 了 。 如 果 一 个 全 新 的 环境 只 安装 好 了 
paster ， 那么 一 投 只 有 两 个 模板 :* basic_package 和 paste_deploy ° 


执行 命令 示例 * paster create -0 arithmetic-2 -t basic package arithmetic ， 可 以 看 到 简 
单 地 填写 几 个 问题 以 后 ，paster 就 在 arithmetic-2 目录 生成 了 名 为 arithmetic 的 包 项 目 。 可 以 
看 到 setup.py 文件 中 所 有 的 参数 都 帮 我 们 卉 好 了 。 不 过 第 一 次 使 用 paster 的 话 ， 回 答 问 题 
时 可 能 会 输入 错误 ， 而 paster 又 不 能 回 退 删除 输入 ， 所 以 就 只 好 重 来 一 次 。 要 解决 这 个 问 
题 ， 可 以 用 上 --config 参数 ， 它 是 一 个 类 似 ini 文件 格式 的 配置 文件 ， 可 以 在 里 面 卉 好 各 个 
模板 变量 的 值 (查询 模板 有 哪些 变量 用 --list-variables 参数 ) ， 然 后 就 可 以 使 用 了 。 示例 
如 下 : 


[pastescript] 

description = corp-prj 

license name = 

keywords = Python 
long_description = corp-prj 
author = xxx corp 

author_email = xxx@example.com 
url = http://example.com 
version = 0.0.1 


然后 这 样 使 用 : paster create -t basic package --config="corp-prj-setup.cfg" arithmetic 


建议 73 : 理解 单元 测试 概念 


单元 测试 用 来 验证 程序 单元 的 正确 性 ， 一 般 由 开发 人 员 完 成 ， 是 测试 过 程 的 第 一 个 环节 ， 以 
确保 缩写 的 代码 符合 软件 需求 和 遵循 开发 目标 。 好 的 单元 测试 有 以 下 好 处 : 


。 减少 了 潜在 bug 
。 大 大 缩减 软件 修复 的 成 本 
。 为 集成 测试 提供 基本 保障 


有 效 的 单元 测试 应 该 从 以 下 几 个 方面 考虑 : 


。 测试 先行 ， 遵 循 单元 测试 步骤 : 
o 创建 测试 计划 (Test Plan ) 
o 编写 测试 用 例 ， 准 备 测试 数据 
o 编写 测试 脚本 
。 编写 被 测 代码 ， 在 代码 完成 之 后 执行 测试 脚本 
o 修正 代码 缺陷 ， 重 新 测试 直到 代码 可 接受 为 目 
。 遵循 单元 测试 基本 原则 : 
o 一 致 性 
o 原子 性 
o 单一 职责 : 测试 应 该 基于 情景 (scenario) 和 行为 ， 而 不 是 方法 。 如 果 一 个 方法 对 应 
着 多 种 行为 ， 应 该 有 多 个 测试 用 例 ; 而 一 个 行为 即使 对 应 多 个 方法 也 只 能 有 一 个 测 
试用 例 
。 隔离 性 : 不 能 依赖 于 具体 的 环境 设置 ， 如 数据 库 的 访问 、 环 境 变量 的 设置 、 系 统 的 
时 间 等 ; 也 不 能 依赖 于 其 他 的 测试 用 例 以 及 测试 执行 的 顺序 ， 并 且 无 条 件 逻 辑 依 
赖 。 单 元 测试 的 所 有 输入 应 该 是 确定 的 ， 方 法 的 行为 和 结构 应 是 可 以 预测 的 。 

e 使 用 单元 测试 框架 ， 在 单元 测试 方面 常见 的 测试 框架 有 PyUnit 等 ， 它 是 JUnit 的 Python 
版 本 ， 在 Python2.1 之 前 需要 单独 安装 ， 在 Python2.1 之 后 它 成 为 了 一 个 标准 库 ， 名 为 
unittest。 它 支持 单元 测试 自动 化 ， 可 以 共享 地 进行 测试 环境 的 设置 和 清理 ， 支 持 测试 用 
例 的 聚集 以 及 独立 的 测试 报告 框架 。unittest 相关 的 概念 主要 有 以 下 4 个 : 

。 测试 固件 (test fixtures) : 测试 相关 的 准备 工作 和 清理 工作 ， 基 于 类 TestCase 创建 


测试 固件 的 时 候 通常 需要 重新 实现 setup() 和 tearDown() 方法 。 当 定义 了 这 些 

法 的 时 候 ， 测 试 运 ro 个 别 调用 这 两 个 方法 

o 测试 用 例 (test a : 最 小 的 测试 单元 ， 通 常 基于 TestCase 构建 

o 测试 用 例 集 (test suite) : 测试 用 例 的 集合 ， 使 用 TestSuite 类 来 实现 ， 除 了 可 以 包 

含 TestCase 外 ， 也 可 以 包含 TestSuite 

o 测试 运行 器 (test runner) : 控制 和 了 驱动 整个 单元 测试 过 程 ， 一 般 使 用 TestRunner 
类 作为 测试 用 例 的 基本 执行 环境 ， 常 用 的 运行 器 为 TextTestRunner ， 它 是 
TestRunner 的 子 类 ， 以 文字 方式 运行 测试 并 报告 结果 





TestSuite 类 来 组 织 TestCase，TestSuite 类 可 以 看 成 是 TestCase 类 的 一 ， 用 来 对 
个 测试 用 例 进 行 组 织 ， 这 样 多 个 测试 用 例 可 以 自动 在 一 次 测试 ee o 


suite = unittest.TestSuite() 
suite.addTest(MyCalTest("testAdd")) 
suite.addTest(MyCalTest("testSub")) 
runner = unittest.TextTestRunner() 
runner.run(suite) 


运行 命令 : 。 python -m unittest -v MyCalTest 


建议 74 : 为 包 写 单 元 测试 
实际 项 目 中 的 测试 有 不 少 麻烦 : 
e@ 程序 员 和 希望 测试 更 加 自动 化 


。 一 个 测试 用 例 往 往 在 测试 之 前 需要 进行 打桩 或 做 一 些 准备 工作 ， 在 测试 之 后 要 清理 现 
场 ， 最 好 有 一 个 框架 可 以 自动 完成 这 些 工作 


e 对 于 大 项 目 ， 大 量 的 测试 用 例 需 要 分 门 分 类 地 放置 ， 而 测试 之 后 ， 分 别 产 生 相 应 的 测试 
报告 


unittest 框架 ， 除 了 自 ls 以 test 开头 的 方法 之 外 ， unittest.Testcase 还 有 模板 方法 
setup() 和 tearpown() ， 通 过 覆盖 这 两 个 方法 ， 能 够 实现 在 测试 之 前 执行 一 些 准备 工作 ， 
并 在 测试 之 后 清理 现场 。 


可 以 使 用 unittest 测试 发 现 (test discover) 功能 : python -m unittest discover ， unittest 
将 递归 地 查找 当前 目录 下 匹配 test* .py 模式 的 文件 ， 并 将 其 中 unittest.Testcase 的 所 有 
子 类 都 实例 化 ， 然 后 调用 相应 的 测试 方法 进行 测试 。 


unittest 的 测试 发 现 功 能 是 Python2.7 版 本 中 才 有 的 ， 如 果 使 用 更 昌 的 版 本 ， 需 要 安装 


unittest2 


除 此 之 外 ， setuptools 对 distutils.command 进行 了 扩展 ， 增 加 了 命令 test。 这 个 命令 执行 
的 时 候 ， 先 运行 egg_info 和 build_ext 子 命令 构建 项 目 ， 然 后 把 项 目 路 径 加 到 sys.path 
中 3 再 搜寻 所 有 的 测试 套件 ( test suite ， 通常 常 指 多 个 测试 用 例 | 或 测 试 套件 的 组 合 ) 并 运 
行 之 。 要 使 用 这 个 扩展 命令 ， 需 要 在 调用 setup() a 它 传递 test_suite 元 数 
据 ， 例 如 


Setupapy: 
setup(name = "arithmetic", 


test_ suite = "test arithmetic", 


test_suite 元 数据 的 值 可 以 指向 一 个 包 、 模 块 、 类 或 函数 ， 比 如 在 flask 项 目 中 ， 
test_suite = "flask.testsuite.suite" ，” 其 中 flask.testsuite. suite 是 一 个 函数 ; 9 a 


arithmetic 项 目 中 ， test arithmetic 是 一 个 模块 。 


使 用 setuptools 的 测试 发 现 功 能 ， 可 以 给 开发 人 员 更 一 致 的 开发 体验 ， 就 像 使 用 
build 、 install 命令 一 样 。 但 是 来 自 unittest 本 身 的 缺陷 让 开发 人 员 想 要 找到 一 个 更 好 的 
测试 框架 : 


。 unittest 并 不 够 Pythonic， 比 如 从 JUnit 中 继承 而 来 的 首 字 母 小 写 的 骆驼 命名 法 ; 所 有 的 
测试 用 例 都 需要 从 TestCase 集成 

e unittest 的 setup() i Peace 只 是 在 TestCase 的 层面 上 提供 ， 即 每 一 个 测试 用 例 
执行 的 时 候 都 会 运行 一 遍 ， 如 果 有 多 个 模块 需要 测试 ， 那 么 创建 环境 和 清理 现场 操作 都 
会 带 来 大 量 工作 

e unittest 没有 插件 机 制 进行 功能 扩展 ， 比 如 想 要 增加 测试 履 盖 统计 特性 就 非常 困难 。 


nose 就 是 作为 更 好 的 测试 框架 进入 视线 的 ， 而 它 更 是 一 个 具有 更 强大 的 测试 发 现 运行 的 程 
序 。 此 外 ，nose 定义 了 插件 机 制 ， 使 得 扩展 nose 的 功能 成 为 可 能 (默认 自 带 coverage 插 
件 ) 。 使 用 pip 女 安装 后 ， 就 多 了 一 个 nosetests 命 令 可 以 使 用 : nosetests -v 


可 以 看 到 nose 能 够 自动 发 现 测 试用 例 ， 并 调用 执行 ， 由 于 它 与 原 有 的 unittest 测试 用 例 兼 

容 ， 所 以 可 以 随时 将 它 引 入 到 项 目 中 来 。 其 实 nose 的 测试 发 现 机 制 更 进一步 ， 它 抛弃 了 

unittest 中 测试 用 例 必 须 放 在 TestCase 子 类 中 的 限制 ， 只 要 命名 符合 (?:^|1[b_.-])[Ttjest 
正则 表达 式 的 类 和 函数 都 可 作为 测试 用 例 运 行 。 


此 外 ” NOose 作为 一 个 测试 框架 2? 也 提供 了 与 unittest.TestCase 类 似 的 断言 区 数 ， 但 它 抛弃 
了 unittest 的 那 种 Java 风格 的 命令 方式 ， 使 用 的 是 符合 PEP8 的 命名 方式 。 


针对 unittest 中 setup() 和 tearpown() 只 能 放 在 TestCase 中 的 问题 ，nose 提供 了 3 
个 级 别 的 解决 方案 ， 这 些 配 置 和 清理 函数 ， 可 以 放 在 包 ( _init .py 文件 中 ) 、 模 块 和 测 
试用 例 中 ， 非 常 完 全 地 解决 了 不 同 层次 的 测试 需要 的 配置 和 清理 需求 。 


最 后 ， nose 与 setuptools 的 集成 更 加 友好 ， 提供 了 nose.collector 作为 通过 的 测试 套 
件 ， 让 开发 人 员 无 须 针 对 不 同 项 目 编写 不 同 的 套件 。 需 要 对 setup.py 作 如 下 修改 : 


# Setup .py 
setup(name = "arithmetic", 


# test_ suite = "test arithmetic", 


test_ suite = "nose.collector", 


然后 运行 python setup.py test ， 得 到 的 结果 是 一 样 的 。 因 为 使 用 nose.collector 之 
后 ， test_siuite 元 数据 就 确定 不 变 了 ， 所 以 它 也 非常 适合 写 入 paster 的 模板 中 去 ， 在 构 
建 目录 的 时 候 自动 生成 。 


建议 75 : 利用 测试 驱动 开发 提高 代码 的 可 测 性 


测试 驱动 开发 (Test Driven Development，TDD ) 是 敏捷 开发 中 一 个 非常 重要 的 理念 ， 它 提 
倡 在 真正 开始 编码 之 前 测试 先行 ， 先 编写 测试 代码 ， 再 在 其 基础 上 通过 基本 和 迭代 完成 编码 ， 
并 不 断 完善 。 一 般 来 说 ， 遵 循 以 下 过 程 : 


。 编写 部 分 测试 用 例 ， 并 运行 测试 

。 ee ， 则 回 到 测试 用 例 编写 的 步骤 ， 继 续 添加 新 的 测试 用 例 
e@ 如 果 测 试 失 败 ， 则 修改 代码 直到 通过 测试 

e。 当 所 有 测试 用 例 编 写 完成 并 通过 测试 之 后 ， 再 来 考虑 对 代码 进行 重 构 


关于 测试 驱动 开发 和 提高 代码 可 测 性 方面 有 几 点 需要 说 明 : 


。 TDD 只 是 手段 而 不 是 目的 ， 因 此 在 实践 中 尽量 只 验证 正确 的 事情 ， 并 且 每 次 仅仅 验证 一 
件 事 。 当 遇 到 问题 时 不 要 局 限于 TDD 本 身 所 涉及 的 一 些 概念 ， 而 应 该 回头 想 想 采 用 
TDD 原本 的 出 发 点 和 目的 是 什么 

。 测试 驱动 开发 本 身 就 是 一 门 学 问 

。 ee : 实践 TDD 困难 ; 外 部 依赖 太 多 ; 需要 写 很 多 
模拟 代码 才能 完成 测试 ; 职责 太 多 导致 功能 模糊 ; 内 部 状态 过 多 且 没 有 办 法 去 操作 和 维 
护 这 些 状态 ; 函数 没有 明显 返回 或 者 参数 过 多 ; 低 内 聚 高 耦合 等 等 。 


建议 76 : 使 用 Pylint 检查 代码 风格 


如 果 团 队 遵循 PEP8 编码 风格 ，Pylint 是 个 不 错 的 选择 〈 还 有 其 他 选择 ， 比 如 pychecker、 
pep8 等 ) 。Pylint 始 于 2003 年 ， 是 一 个 代码 分 析 工 具 ， 用 于 检查 Python 代码 中 的 错误 ， 查 
找 不 符合 代码 编码 规范 以 及 潜在 的 问题 。 支 持 不 同 的 OS 平台 ， 如 Windows 、Linux、OSX 
等 ， 特 性 如 下 : 


e 代码 风格 审查 。 它 以 Guido van Rossum 的 PEP8 为 标准 ， 能 够 检查 代码 的 行 长 度 ， 不 


符合 规范 的 变量 名 以 及 不 恰当 的 模块 导入 等 不 符合 编码 规范 的 代码 

。 代码 错误 检查 。 如 未 被 实现 的 接口 ， 方 法 缺少 对 应 参数 ， 访 问 模块 中 未 定义 的 变量 等 

e@ 发 现 重 复 以 及 设计 不 合理 的 代码 ， 帮 助 重 构 

。 高 度 的 可 配置 化 和 可 定制 化 ， 通 过 pylintrc 文件 的 修改 可 以 定义 自己 适合 的 规范 

。 支持 各 种 IDE 和 编辑 器 集成 。 如 Emacs、Eclipse、WinglIDE、VIM、Spyder 等 

。 能 够 基于 Python 代码 生成 UML 图 ，Pylint0.15 中 就 集成 了 Pyreverse， 能 够 轻易 生成 
UML 图 形 

。 能 够 与 Hudson、Jenkins 等 持续 集成 工具 相 结合 支持 自动 代码 审查 


使 用 Pylint 分 析 代码 ， 输 出 分 为 两 部 分 : 一 部 分 为 源 代码 分 析 结果 ， 第 二 部 分 为 统计 报告 。 
报告 部 分 主要 是 一 些 统计 信息 ， 总 体 来 说 有 以 下 6 类 : 


e statistics by type : 检查 的 模块 、 函 数 、 类 等 数量 ， 以 及 它们 中 存在 文档 注释 以 及 不 
良 命 名 的 比例 

e Raw metrics : 人 代码、 注释、 文档 、 空 行 等 占 模块 代码 量 的 百分比 统计 

e Duplication : 重复 代码 的 统计 百分比 

e Messages by category : 按照 消息 类 别 分 类 统计 的 信息 以 及 和 上 一 次 运行 结果 的 对 比 

e。 Messages :具体 的 消息 ID 以 及 它们 出 现 的 次 数 

e Global evaluation : 根据 公式 计算 出 的 分 数 统计 : 10.0 - ((float(5 * error + warning 


+ refactor + convention) / statement) * 10) 


源 代码 分 析 主 要 以 消息 的 形式 显示 代码 中 存在 的 问题 ， 消 息 以 MESSAGE_TYPE:LINE_NUM: 
[OBJECT:]MESSAGE 的 形式 输出 ， 主 要 分 为 以 下 5 类 : 


。 (C) 惯例 ， 违 反 了 编码 风格 标准 

。 (R) 重 构 ， 写 得 非常 糟糕 的 代码 

。 (W) 警告 ， 某 些 Python 特定 的 问题 

e。 (E) 错误 ， 很 可 能 是 代码 中 的 bug 

。 (F) 致命 错误 ， 阻 止 Pylint 进一步 运行 的 错误 


如 果 信息 输出 trailing-whitespace 信息 ， 可 以 使 用 命令 la RINGE 
whitespace" 来 查看 ， 这 个 是 行 尾 存在 空格 。 


如 果 不 希 望 对 这 类 代码 风格 进行 检查 ， 可 以 使 用 命令 行 过 滤 掉 这 些 类 别 的 信息 ， 比 如 pylint 
-d CO303,W0312 BalancePoint ,py 

pylint 支持 可 配置 化 ， 如 果 在 项 目 中 希望 使 用 统一 的 代码 规范 而 不 是 默认 的 风格 来 进行 代码 
检查 ， 可 以 指定 --generate-rcfile 来 生成 配置 文件 。 默 认 的 Pylintrc 可 以 在 Pylint 的 
目录 examples 中 找到 。 如 默认 支持 的 变量 名 的 正则 表达 式 为 : variable-rgx=[a-z_][a-z90-9_] 
{2,36}$ ， 可 以 根据 自己 需要 进行 相应 修改 。 其 他 配置 如 reports 用 于 控制 是 否 输 出 统计 报 
告 ; max-module-lines 用 于 设置 模块 最 大 代码 行 数 ; max-line-length 用 于 设置 代码 行 最 大 
长 度 ; max-args 用 于 设置 函数 的 参数 个 数 等 。 


建议 77 : 进行 高 效 的 代码 审查 


有 效 的 代码 审查 流程 非常 必要 ， 它 能 够 使 得 大 量 bug 在 该 阶段 被 发 现 ， 并 且 大 幅度 降低 bug 
修复 的 总 体 代 价 ， 因 为 代码 审查 阶段 bug 的 修复 代价 非常 小 。 团 队 应 该 以 这 样 的 态度 去 看 待 
代码 审查 : 


e 不 要 错误 地 理解 代码 审查 会 的 目的 ， 代 码 审 查 会 的 首要 目的 是 提高 代码 质量 ， 找 出 
defect 或 者 设计 上 的 不 足 而 非 修复 defect 。 

e 代码 审查 过 程 不 应 该 有 KPI (Key Performance Indicator) 评价 的 成 分 

对 管理 层 的 建议 ; 除非 经 理 或 者 组 长 监 正 参与 到 具体 的 技术 问题 ， 否 则 应 该 尽量 避免 这 

些 人 员 参 与 代码 审查 会 ， 因 为 这 些 人 直接 与 员工 KPI 挂 钓 

对 开发 者 的 建议 : 把 代码 审查 当做 一 个 学 习 的 机 会 


定位 角色 
一 般 来 说 代码 审查 会 上 有 4 类 角色 : 仲裁 者 、 会 议 记录 者 、 被 评审 开发 人 员 和 评审 者 。 


。 仲裁 者 ， 一 般 由 技术 专家 或 者 资深 技术 人 员 担 任 ， 主 要 职责 是 控制 会 议 流程 和 时 间 ， 保 
证 会 议 流程 的 高 效 性 ， 同 时 能 够 在 必要 的 时 候 给 予 评审 技术 指导 

e 会 议 记 录 者 : 及 时 记录 评审 过 程 中 发 现 的 问题 ， 包 括 问 题 的 提出 者 、 问 题 描 述 、 问 题 产 
生 的 位 置 等 

e 被 评审 开发 人 员 : 一 般 被 评审 开发 人 员 在 评审 开始 的 时 候 应 该 对 其 代码 有 综合 性 的 介 
绍 ， 在 评审 者 提出 问题 或 者 质疑 的 时 候 应 该 及 时 给 出 解释 

。 评审 者 : 除了 以 上 3 类 人 员外 ， 其 余 与 会 的 人 都 称 为 评审 者 


充分 准备 


在 代码 提交 审查 之 前 ， 代 码 作 者 需要 对 代码 进行 自我 修正 等 


合理 使 用 技术 和 工具 


。 检查 表 (checklist) : 检查 表 有 利于 有 针对 性 地 发 现代 码 中 存在 的 问题 ， 如 变量 是 否 初 始 
化 ， 函 数 调用 的 参数 ， 命 名 是 否 一 致 ， 字 符 串 是 否 正确 解码 ， 有 没有 import 未 使 用 的 
lib， 逻 辑 操 作 符 是 否 正确 ，() 、 们 对 是 否 一 致 等 

。 台面 检查 (Desk Checking) : 适合 在 编码 早期 对 顺序 执行 的 代码 进行 检查 ， 手 工 模拟 代 
码 的 执行 过 程 来 检查 程序 中 潜在 的 问题 

e |IRT ( Interleaving Review Technique ) : 适合 于 并 发 性 的 代码 或 者 容错 性 系统 

e 代码 审查 工具 ， 如 Rietveld、review board、Collaborative Code Review Tool (CCRT) 等 


控制 评审 时 间 和 评审 内 容 


为 了 保证 效率 ， 一 般 来 说 一 次 评审 时 间 要 尽量 控制 在 45 分 钟 到 1 个 小 时 。 一 次 评审 的 代码 行 
数 应 控制 在 200 行 以 内 ， 最 好 不 超过 400 行 。 


关注 技术 层面 ， 对 事 不 对 人 


要 把 重点 放 在 技术 问题 以 及 如 何 解决 上 ， 而 不 是 诸如 代码 风格 、 时 间 进 度 之 类 的 非 技术 层面 
的 问题 上 。 


记录 问题 ， 追 踪 进 一 步行 动 
不 要 忽视 附加 的 培训 作用 


建议 78 : 将 包 发 布 到 PyPI 


建立 项 目 之 后 ， 添 加 了 相应 的 业务 代码 ， 并 通过 测试 之 后 ， 就 可 以 考虑 发 布 给 下 游 用 户 了 。 
如 果 是 项 目 内 部 协作 ， 把 项 目 打 一 个 zip 包 或 者 tar ball 发 出 去 ， 最 简单 不 过 了 。 另 外 
setuptools 仍然 提供 了 完善 的 支持 : 


sudo python setup.py sdist --formats=zip, gztar 


setuptools 的 sdist 命令 的 意思 是 构建 一 个 源 代码 发 行 包 ， 它 将 根据 调用 setup() 函数 
时 给 定 的 实 参 将 整个 项 目 打 包 (和 压缩 ) 。 根 据 当 前 的 平台 (操作 系统 ) 不 同 ， 产 生 的 文件 
也 是 不 一 样 的 。 一 般 在 MS Windows 系统 下 ， 产 生 .zip 格式 的 压缩 包 ， 而 在 GNU Linux 
或 macOS 系统 下 ， 产 生 ,tar .gz 格式 的 压缩 包 。 可 以 使 用 --formats 参数 ， 指 定 产生 
.Zip 格式 和 .tar .gz 格式 。 最 终 产 生 的 包 文 件 放 在 ./dist 目录 下 。 


产生 这 两 个 包 以 后 ， 就 可 以 发 布 给 项 目的 下 游 合作 者 了 。 发 布 方式 可 以 是 邮件 、FTP， 或 者 直 
接 使 用 IM 传送 。 下 游 开发 者 收 到 后 有 两 种 安装 方式 : 一 种 是 解压 缩 ， 然 后 进入 setup.py 进 
行 安 装 ， 另 一 种 是 使 用 pip 安装 。 


如 果 是 较 大 的 团队 一 起 协作 一 个 项 目 ， 最 好 把 包 发 布 到 PyPl 上 面 。 可 以 是 pypi.python.org 
这 个 官方 的 PyPI， 也 可 以 是 团队 架设 的 私有 PyPl。 


标准 库 distutils 自身 已 经 带 有 发 布 到 PyPI 的 功能 ， 那 就 是 register 和 upload 命令 。register 
命令 用 以 在 PyPl 上 面 注册 一 个 包 ， 这 个 包 名 必须 是 尚未 使 用 的 。 在 注册 包 名 之 前 ， 先 在 
PyPI 上 注册 一 个 用 户 ， 可 以 通过 PyPl 网 页 注册 ， 也 可 以 直接 使 用 register 命令 提供 的 选项 
注册 。 
验证 通过 以 后 ，distutils 向 PyPl 申请 注册 包 名 ， 一 般 都 能 够 成 功 。 但 如 果 这 个 包 名 已 经 被 别 
的 用 户 使 用 过 了 ， 那 会 引发 一 个 403 错误 。 
涉及 到 的 命令 如 下 : 

python setup.py --help-commands 

python setup.py register 


python setup.py register -n 
python setup.py sdist upload 
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第 8 草 性 能 剖析 与 优化 


建议 79 : 了 解 代 码 优化 的 基本 原则 


代码 优化 是 指 在 不 改变 程序 运行 结果 的 前 提 下 使 得 程序 运行 的 效率 更 高 ， 优 化 的 代码 意味 着 
ah 


e 优先 保证 代码 是 可 工作 的 : 让 正确 的 程序 更 快要 比 让 快速 的 程序 正确 容易 得 多 。 因 此 优 
化 的 前 提 是 代码 满足 了 基本 的 功能 需求 ， 是 可 工作 的 。 过 旱地 进行 优化 可 能 会 忽视 对 总 
体 性 能 指标 的 把 握 ， 忽 略 可 移植 性 、 | 性 、 内 聚 os ee 每 行 优化 
的 代码 并 不 一 定 能 够 带 来 整体 运行 性 能 良好 ， 因 为 性 能 能 出 现在 意 想 不 到 的 地 
方 ， 比 如 模块 与 模块 之 间 的 交互 和 通 

。 权衡 优化 的 代价 : 优化 是 有 代价 的 ， 可 能 是 面临 着 牺牲 时 间 换 空间 或 者 空间 换 时 间 的 选 
择 ; 如 果 在 项 目 时 间 紧 迫 的 情况 下 能 够 仅仅 通过 增加 硬件 资源 就 解决 主要 性 能 问题 ， 不 
妨 选择 更 强大 的 部 署 环境 ; 或 者 在 已 经 实现 的 代码 上 进行 修 修补 补 试图 进行 优化 代码 所 
耗费 的 经 历 超过 重 构 的 代价 时 ， 重 构 可 能 是 更 好 的 选择 

e。 定义 性 能 指标 ， 集 中 力量 解决 首要 问题 : 我 们 必须 制定 出 可 以 衡量 快 的 具体 指标 ， 比 如 
在 什么 样 的 运行 环境 下 〈 如 网 络 速度 、 硬 件 资源 等 ) 、 运 行 什么 样 的 业务 响应 时 间 的 范 
围 是 多 少 秒 。 

e 不 要 忽略 可 读 性 ， 优 化 不 能 以 牺牲 代码 的 可 读 性 ， 甚 至 带 来 更 多 的 副作用 为 代价 。 


建议 80 : 借助 性 能 优化 工具 


好 的 工具 能 够 对 性 能 的 提升 起 到 非常 关键 的 作用 。 常 见 的 性 能 优化 工具 有 Psyco、Pypy 和 
cPython 等 。 


。 Psyco : Psyco 是 一 个 just-in-time 的 、 ， 它 能 够 在 不 改变 源 代码 的 情况 下 提高 一 
定 的 性 能 ，Psyco 将 操作 编译 成 部 分 优化 的 机 器 码 ， 其 操作 分 成 三 个 不 同 的 级 别 ， 有 " 运 
行 时 ”、“ 编 译 时 "和 “虚拟 时 "变量 ， 并 根据 需要 提 ed 量 的 级 别 。 运 行 时 变量 只 是 常 
规 Python 解释 器 处 理 的 原始 字 节 码 和 对 象 结构 。 一 旦 Psyco 将 操作 编译 成 机 器 码 ， 那 

么 编译 时 变量 就 会 在 机 器 寄存 器 和 可 直接 访问 的 内 存 位 置 中 表示 。 同 时 Python 能 高 速 组 
存 已 编译 的 机 器 码 以 备 以 后 重用 ， 这 样 能 节省 一 点 时 间 。 但 Psyco 也 有 其 缺点 ， 其 本 身 
所 占 内 存 较 大 。2012 年 Psyco 项 目 停止 维护 并 正式 结束 ， 由 Pypy 所 接替 。 

。 Pypy : Python 的 动态 编译 器 ， 是 Psyco 的 后 继 项 目 。 其 目的 是 ， 做 到 Psyco 没有 做 到 
的 动态 编译 。Pypy 的 实现 分 为 两 部 分 ， 第 一 部 分 “用 Python 实现 的 Python”， 实 际 上 它 
是 使 用 一 个 名 为 RPython 的 Python 子 集 实现 的 ，Pypy 能 够 将 Python 代码 转 成 
C、.NET、Java 等 语言 和 平台 的 代码 ; 第 二 部 分 Pypy 集成 了 一 种 编译 rPython 的 即时 

(JIT) 编译 器 ， 和 许多 编译 器 、 解 释 器 不 同 ， 这 种 编译 器 不 关心 Python 代码 的 词法 分 
析 和 语法 树 ， 所 以 它 直接 利用 Python 语言 的 Code Object (Python 字 节 码 的 表示 ) 。 


Pypy 直接 分 析 Python 代码 所 对 应 的 字 节 码 ， 这 些 字 节 码 既 不 是 以 字符 形式 也 不 是 以 某 
种 二 进 制 格式 保存 在 文件 中 。 


建议 81 : 利用 cProfile 定位 性 能 瓶颈 


程序 运行 慢 的 原因 有 很 多 ， 丨 正 的 原因 往往 是 一 两 段 设计 并 不 那么 良好 的 不 起 眼 的 程序 ， 比 
如 对 一 系列 元 素 进行 自 定义 的 类 型 转换 等 。 程 序 性 能 影响 往往 符合 ost 
码 的 运行 时 间 占 用 了 80% 的 总 运行 时 间 ， 我 们 需要 一 个 工具 帮忙 定位 性 能 


profile 是 Python 的 标准 库 ， 可 以 统计 程序 里 每 一 个 函数 的 运行 时 间 ， 并 且 提 供 了 多 样 化 的 报 
表 ， 而 cProfile 则 是 它 的 C 实现 版 本 ， 剖 析 过 程 本 身 需 要 消耗 的 资源 更 少 。 所 以 在 Python3 
中 ，cProfile 代替 了 profile， 成 为 默认 的 性 能 剖析 模块 。 使 用 cProfile 来 分 析 一 个 程序 : 


dei oo 
sum = 0 
for i in range(100): 
Sum += i 
return sum 


a name = ein 





import cPprofile 
cProfile.run("foo()") 


余 了 用 这 种 方式 ，cProfile 还 可 以 直接 用 Python 解释 器 调用 cProfile 模块 来 剖析 Python 程 
序 ， 如 python -m cProfile prof1.py 


cprofile 的 统计 结果 分 为 ncalls、tottime、 percall 、 cumtime 、 percall、 
filename:lineno(function) 等 若干 列 


统计 项 意义 
ncalls 沟 数 的 被 调用 次 数 
tottime 况 数 总 计 运 行 时 间 ， 不 含 调用 的 部 数 运行 时 间 
percall 函数 运行 一 次 的 平均 时 间 ， 等 于 tottime/ncalls 
cumtime 函数 总 计 运 行 时 间 ， 人 钨 调用 的 函数 运行 时 间 
percall 函数 运行 一 次 的 平均 时 间 ， 等 于 cumtime/ncalls 
filename:lineno(function) 苞 数 所 在 的 文件 名 、 郊 数 的 行 号 、 郊 数 名 


通常 情况 下 ，cProfile 的 输出 都 直接 输出 到 命 而 且 上 默认 是 按照 文件 名 排序 输出 的 。 
cProfile 简单 地 支持 了 一 些 需 求 ， 可 以 在 ee 函数 里 再 提供 一 个 实 参 ， 就 是 保存 输出 
的 文件 名 。 同 样 ， 在 命令 行 参数 里 ， 也 可 以 加 多 一 个 参数 ， 用 来 保存 cProfile 的 输出 。 


cProfile 解决 了 我 们 的 对 程序 执行 性 能 剖析 的 需求 ， 但 还 有 一 个 需求 : 以 多 种 形式 查看 报表 以 
便 快 速 定位 瓶颈 。 我 们 可 以 通过 pstats 模块 的 另 一 个 类 Stats 来 解决 。Stats 的 构造 函数 接受 


一 个 参数 
控制 等 功能 。 





Th name ==> -man 





import cPprofile 
cProfile.run("foo()", "prof.txt") 
import pstats 

p = pstats.Stats("prof.txt") 
p.sort_stats("time").print_stats() 


就 是 cProfile 的 输出 文件 名 。Status 提供 了 对 cProfile 输出 结果 


Stats 有 若干 个 也 数 ， 这 些 函 数组 合 能 输出 不 同 的 cProfile 报表 : 





进行 排序 、 输 出 


函数 函数 的 作用 
strip_dirs() 用 以 除去 文件 名 前 面 的 路 径 信息 
add(filename, [...]) 把 profile 的 输出 文件 加 入 Stats 实例 中 统计 
dump_stats(filename) 把 Stats 的 统计 结果 保存 到 文件 
sort_stats(key, [...]) 把 最 重要 的 一 个 函数 ， 用 以 排序 profile 的 输出 
reverse_order() 把 Stats 实例 里 的 数据 反 序 重 排 
print_stats([restriction, ...]) 把 Stats 报表 输出 到 stdout 
print_callers([restriction,...]) 输出 调用 了 指定 的 函数 的 相关 信息 
print_callees([restriction,...]) 输出 指定 的 函数 调用 过 的 函数 的 相关 信息 


这 里 最 重要 的 函数 就 是 sort_stats 和 print_stats ， 通过 


的 形式 浏览 所 有 的 信息 了 : 


这 两 个 函数 我 们 几乎 可 以 用 适当 


® sort_stats() 接收 一 个 或 者 多 个 字符 串 参 数 ， 如 time、name 等 ? 表明 要 根据 哪 一 列 来 


排序 。 比 如 可 以 通过 用 time 为 key 来 排序 得 


来 排序 ， 获 知 总 消耗 时 间 最 多 的 函数 。 sort_stats 可 接受 的 参数 列表 如 下 所 示 : 


o ncalls : 被 调用 次 数 

o cumulative : 函数 运行 的 总 时 间 
o file :文件 名 

o module : 模块 名 


时 知 最 消耗 时 间 的 函数 ; 也 可 以 通过 


o pcalls : 简单 调用 统计 《兼容 旧版 ， 未 统计 递归 调用 ) 


o line : 行 号 

o name : 胸 数 名 

o nfl : Name 、 file、 line 
o stdname : 标准 函数 名 


o time : 哆 数 内 部 运行 时 间 (不 计 调 用 子 辑 数 的 时 间 ) 


cumtime 


© print_stats 输出 最 后 一 次 调用 sort_stats 之 后 得 到 的 报表 ° print_stats 有 多 个 可 
选 参数 ， 用 以 算 选 输出 的 数据 。 print_stats 的 参数 可 以 是 数字 也 可 以 是 Perl 风格 的 正 
则 表达 式 。 例 子 : print_stats(".,1",， "fo0:") ， 这 个 语句 表示 将 stats 里 的 内 容 取 前 面 
10%， 然 后 再 将 包含 "foo:" 这 个 字符 串 的 结果 输出 ， print_stats("foo:", ".1") ， 这 个 
语句 表示 将 stats 里 的 包含 "foo:" 字符 串 的 内 容 的 前 10% 输出 ; print_stats(10) ， 这 个 
语句 表示 将 stats 里 前 10 条 数据 输出 。 


o 实际 上 ，profile 输出 结果 的 时 候 相 当 于 如 下 调用 了 Stats 的 遂 
数 : p.strip_dirs().sort_ stats(-1).print_stats() ° 其 中 ” sort_stats 函数 的 参数 
是 -1， 这 是 为 了 与 昌 版 本 兼容 而 保留 的 。 sort_stats 可 以 接受 -1、0、1、2 之 一 ， 
这 4 个 数 分 贝 对 应 "stdname"、"calls"、"time" 和 "cumulative"。 但 如 果 你 使 用 了 数 
字 为 参数 ， 那 么 pstats 只 按照 第 一 个 参数 进行 排序 ， 其 他 参数 将 被 忽略 


除了 编程 接口 外 ” pstats 还 提供 了 友好 的 命令 行 交 互 环境 > 在 命令 行 执行 python -m pstats 
就 可 以 进入 交互 环境 ， 在 交互 环境 里 可 以 使 用 read 或 add 指令 读 入 或 加 载 剖 析 结 果 文 件 ， 
stats 指令 用 以 查看 报表 ，callees 和 callers 指令 用 以 查看 特定 函数 的 被 调用 者 和 调用 者 。 


测定 向 list 里 添加 一 个 元 素 需 要 的 时 间 ， 可 以 考虑 使 用 timeit 模块 。 


timeit 模块 除了 有 非常 友好 的 编程 接口 ， 也 同样 提供 了 友好 的 命令 行 接口 。 首 先 ，timeit 模块 
包含 了 一 个 类 Timer， 它 的 构造 函数 如 下 : 


class Timer([stmt="pass"[, setup="pass"[, timer=<time function>]]]) 


stmt 参数 是 字符 串 形式 的 一 个 代码 段 ， 这 个 代码 段 将 被 评测 运行 时 间 : setup 参数 用 以 设置 
stmt 的 运行 环境 ; timer 可 以 由 用 户 使 用 自 定 义 精 度 的 计时 函数 。 


timeit.Timer 有 3 个 成 员 函 数 : timeit([number=1000000]) ， timeit() 执行 一 次 Timer 构 

造 函 数 中 的 setup 语句 之 后 ， 就 重复 执行 Number 次 stmt 语句 ， 然 后 返回 总 计 运 行 消耗 的 时 
间 ; repeat([repeat=3[，number=1600000]]) ， repeat() 函数 以 number 为 参数 调用 timeit 艺 
数 repeat 次 ， 并 返回 总 计 运 行 消耗 的 时 间 。 print_exc([file=None]) ， print_exec() 函数 以 
代替 标准 的 tracback， 原 因 在 于 print_exec() 会 输出 错 行 的 源 代码 。 


除了 可 以 使 用 timeit 的 编程 接口 外 ， 也 可 以 在 命令 行 里 使 用 timeit : 


python -m timeit [-n N] [-r N] [-s S] [-t] [-c] [-h] [statement ...] ， 其 中 参数 的 定义 如 
本 


e -n N/--number=N ，Sstatement 语句 执行 的 次 数 

e。 -r N/--repeat=N ， 重 复 多 少 次 调用 timeit() ， 默 认为 3 

e -s S/--setup=S ， 用 以 设置 statement 执行 环境 的 语句 ， 默 认为 "pass" 

e。 -t/--time ， 计 时 函数 ， 除 了 Windows 平台 外 默认 使 用 time.time() 函数 
e -c/--clock ， 计 时 函数 ，Windows 平台 默认 使 用 time.clock() 函数 

e。 -vw/--verbose ， 输 出 更 大 精度 的 计时 数值 

e -h/--help ， 简 单 的 使 用 帮助 


建议 82 :使 用 memory_profiler 和 objgraph 剖析 内 
存 使 用 


Python 还 提供 了 一 些 工 具 可 以 用 来 查看 内 存 的 使 用 情况 以 及 追踪 内 存 泄漏 (如 
memory_profiler 、 objgraph 、 cpProfile 、 PySizer 及 Heapy 等 ) 3 或 者 可 视 化 地 显示 对 
得 之 间 的 引用 (如 objgraph ) ， 从 而 为 发 现 内 存 问 题 提 供 更 直接 的 证 据 。 


memory_profiler 

o 在 Windows 平台 需要 先 安 装 依赖 包 psutil 。 

2 memory_profiler 的 使 用 非常 简单 2 在 需要 进行 内 存 分 析 的 代码 之 前 用 @profile 
进行 装饰 ， 然 后 运行 命令 python -m memory_profiler 文件 名 ， 便 可 以 输出 每 一 行 代 
码 的 内 存 使 用 以 及 增长 情况 

objgraph 
o 0bjgraph 的 功能 大 致 可 以 分 为 以 下 三 类 : 
统计， 如 objgraph.count(typename[, objects]) 表示 根据 传 入 的 参数 显示 被 gc 
跟踪 的 对 象 的 数目 ; objgraph.show most_ common_ types([limit=10, objects]) 表 
示 显 示 常 用 类 型 对 应 的 对 象 的 数目 
和 定位 和 过 滤 对 象 ， 如 objgraph.by_type(typename[, objects]) 表示 根据 传 入 的 
参数 显示 被 gc 跟踪 的 对 象 信 息 ; objgraph.at(addr) 表示 根据 给 定 的 地 址 返回 
对 象 
国 遍历 和 显示 对 象 图 。 如 objgraph.show_refs(objs[, max_depth=3, extra_ignore= 
(), filter=None, too_many=10, highlight=None, filename=None, extra_info=None, 
refcounts=False]) 表示 从 对 象 objs 开始 显示 对 象 引用 关系 
图 ; objgraph. show_backrefs(objs[, max_depth=3, extra_ ignore=(), filter=None, 


too_many=10, highlight=None, filename=None, extra_info=None, 


refcounts=False]) 表示 显示 以 objs 的 引用 作为 结束 的 对 象 关 系 图 。 


两 个 例子 ， 一 个 是 生成 对 象 X 的 引用 关系 图 : 


>>> import objgraph 
>>>X a 1 [23 川 
>>> objgraph.show_refs([x], filename="test.png") 


显示 常用 类 型 不 同类 型 对 象 的 数目 ， 限 制 输出 前 3 行 : 


>>> objgraph.show_most_common_types(limit=3) 


wrapper_descriptor 1031 
function 975 
builtin_ function _ or_method 615 


在 当前 的 计算 硬件 资源 发 展 形势 下 ， 对 空间 复杂 度 的 关注 远 没有 时 间 复 杂 度 高 ， 因 此 降低 算 
法 的 复杂 度 主 要 集中 在 对 其 时 间 复 杂 度 的 考量 。 算 法 的 时 间 复 杂 度 是 指 算法 需要 消耗 的 时 间 
资源 ， 常 使 用 大 写字 母 O 表示 。 复 杂 度 大 O 的 排序 比较 : 


0(1) < 0(log * n) < 0(n) < O(n log n) < 0(n^2) < 0(cAn) < 0(n!) < 0(nAn) 
需要 特别 说 明 ， 算 法 的 复杂 度 分 析 的 粒度 非常 重要 ， 其 前 提 一 定 是 粒度 相同 的 指令 执行 时 间 
近似 ， 不 能 将 任意 一 行 代码 直接 当做 O(1) 进行 分 析 ， 比 如 调用 函数 。 另 外 ， 算 法 复杂 度 分 析 
建立 在 同一 级 别 语言 实现 的 基础 上 ， 如 果 Python 代码 中 含有 C 实现 的 代码 ， 千 万 不 能 混在 
一 起 进行 评估 。 


Python 常见 数据 结构 基本 操作 时 间 复 杂 度 : 


数据 结构 及 操作 平均 时 间 复 杂 度 度 
义 
list 复制 O(n) O(n) 
list 追加 、 取 元 素 的 值 ， 给 某 个 元 素 赋值 O(1) O(1) 
list 插入 、 删 除 某 个 元 素 ， 迭 代 操 作 O(n) O(n) 
list 切片 操作 O(k) O(k) 
setxins O(1) O(n) 
Re Ol(len(s)+ 
set 并 S t 
六 O(min(len(s), Ol(len(s)* 
| len(t))) len(t)) 
set 差 s-t Ol(len(s)) 
dict 获取 修改 元 素 的 值 ， 删 除 O(1) O(n) 
dict 迭代 操作 O(n) O(n) 
collections.deque 入 列 、 出 列 (包括 左边 出 O(1) O(1) 
入 列 ) 
collections.deque 扩大 队列 O(k) O(k) 
collections.deque 删除 元 素 O(n) O(n) 


建议 84 : 掌握 循环 优化 的 基本 技巧 
循环 的 优化 应 遵循 的 原则 是 尽量 减少 循环 过 程 中 的 计算 量 ， 多 重 循 环 的 情形 下 尽量 将 内 层 的 
计算 提 到 上 一 层 。 

e 减少 循环 内 部 的 计算 


。 将 显 式 循环 改 为 隐 式 循环 ， 如 果 用 for 循环 求解 1...n 的 和 ， 对 比 用 公式 求解 。 当 然 这 可 
能 会 带 来 另 一 个 负面 影响 : 牺牲 了 代码 的 可 读 性 。 因 此 这 种 情况 下 清晰 、 恰 当 的 注释 是 


非常 必要 的 

。 在 循环 中 尽量 引用 局 部 变量 ， 在 命名 空间 中 局 部 变量 优先 搜索 ， 因 此 局 部 变量 的 查询 会 
比 全 局 变量 要 快 ， 当 在 循环 中 需要 多 次 引用 某 一 个 变量 的 时 候 ， 尽 量 将 其 转换 为 局 部 变 
量 ， 比 如 下 面 第 二 个 循环 就 优 于 第 一 个 循环 : 


X= 10 S46 7SI 
QUef fC 
for i in range(len(x)): 
x[i] = math.sin(x[i]) 
return x 


def g(x): 
loc_sin = math.sin 
for i in range(len(x)): 
XLil = loc sin(xLL]y 
heturnex 


时 关注 内 层 部 套 循环 2 尽量 将 内 层 循环 的 计算 往 上 层 移 ， 比如: 


for i in range(len(v1)): 
for j in range(len(v2)): 
x = v1i[i] + v2[j] 


for i in range(len(v1)): 
v1ii = v1i[i] 
for j in range(len(v2)): 
x = v1ii + v2[j] 


建议 85 : 使 用 生成 器 提高 效率 


生成 器 的 概念 是 ， 如 果 一 个 函数 体 中 包含 有 yield 语句 ， 则 称 为 生成 器 (generator) ， 它 是 一 
种 特殊 的 迭代 器 (iterator) ， 也 可 以 称 为 可 迭代 对 象 (iterable) 。 


实际 上 当 需 要 在 循环 过 程 中 依次 处 理 一 个 序列 中 的 元 素 的 时 候 ， 就 应 该 考虑 生成 器 。yield 语 
句 与 return 语句 相似 ， 当 解释 器 执行 遇 到 yield 的 时 候 ， 函 数 会 自动 返回 yield 语句 之 后 的 表 
达 式 的 值 。 不 过 与 return 不 同 的 是 ，yield 语句 在 返回 的 同时 会 保存 所 有 的 局 部 变量 以 及 现场 
信息 ， 以 便 在 选 代 器 调用 next() 或 send() 方法 的 时 候 还 原 ， 而 不 是 直接 交 给 垃圾 回收 器 
( return() 方法 返回 后 这 些 信息 会 被 垃圾 回收 器 处 理 ) 。 这 样 就 能 够 保证 对 生成 器 的 每 一 次 
迭代 都 会 返回 一 个 元 素 ， 而 不 是 一 次 性 在 内 存 中 生成 所 有 的 元 素 。 自 Python2.5 开始 ，yield 
语句 变 为 表达 式 ， 可 以 直接 将 其 值 赋 给 其 他 变量 。 


生成 器 的 优点 总 体 来 说 有 如 下 几 条 : 


e 生成 器 提供 了 一 种 更 为 便利 的 产生 迭代 器 的 方式 ， 用 户 一 般 不 需要 自己 实现 _iter 
和 next 方法 ， 它 默认 返回 一 个 迭代 器 

e 代码 更 为 简洁 优雅 

e 充分 利用 了 延迟 评估 (Lazy evaluation ) 的 特性 ， 仅 在 需要 的 时 候 才 产 生 对 应 的 元 素 ， 
而 不 是 一 次 生成 所 有 的 元 素 ， 从 而 节省 了 内 存 空间 ， 提 高 了 效率 。 

e 使 得 协同 程序 更 为 容易 实现 。 协 同 程序 是 有 多 个 进入 点 ， 可 以 挂 起 恢复 的 函数 ， 这 基本 
就 是 yield 的 工作 方式 。Python2.5 之 后 生成 器 的 功能 更 完善 ， 加 入 了 
send() 、 close() 和 throw() 方法 。 其 中 send() 不 仅 可 以 传递 值 给 yield 语句 ， 而 
且 能 够 恢复 生成 器 ， 因 此 生成 器 能 大 大 简化 协同 程序 的 实现 。 


建议 86 : 使 用 不 同 的 数据 结构 优化 性 能 


考虑 到 Python 中 的 查找 、 排 序 常用 算法 都 已 经 优化 到 了 极点 〈 虽 然 对 sort() 使 用 key 参数 
比 使 用 cmp 参数 有 更 高 的 性 能 仍然 值得 一 提 ) ， 首 先 应 当 想 到 的 是 使 用 不 同 的 数据 结构 优化 


性 能 。 


list ， 它 的 内 存 管理 类 似 C++ 的 std::vector ， 即 预先 分 配 一 定数 量 的 内 存 ， 用 完 时 ， 又 
继续 往 里 面 插入 元 素 ， 会 启动 新 一 轮 的 内 存 分 配 。 list 对 象 会 根据 内 存 增长 算法 申请 一 块 
更 大 的 内 存 ， 然 后 将 原 有 的 所 有 元 素 找 贝 过 去 ， 销 毁 之 前 的 内 存 ， 再 插入 新 元 素 。 当 删除 元 
素 时 ， 也 是 类 似 ， 删 除 后 发 现 已 用 空间 比 预 分 配 空 间 的 一 半 还 少时 ，list 会 另外 申请 一 块 小 内 
存 ， 再 做 一 次 元 素 找 贝 ， 然 后 销毁 原 有 的 大 内 存 。 可 见 ， 如 果 1list 对 象 经 常 有 元 素数 量 的 巨 

变 ， 应 当 考 虑 使 用 deque 。 


deque 就 是 双 端 队列 ， 同 时 具备 栈 和 队列 的 特性 ， 能 够 提供 在 两 端 插入 和 删除 时 复杂 度 为 
O(1) 的 操作 。 相 对 于 list， 它 最 大 的 优势 在 于 内 存 管理 方面 。 如 果 不 熟悉 C++ 的 
std::deque ， 可 以 把 deque 想象 为 多 个 list 连 在 一 起 ， 它 的 每 一 个 list 也 可 以 存储 多 个 元 
素 。 它 的 优势 在 于 插入 时 ， 已 有 空间 已 经 用 完 ， 那 么 它 会 申请 一 个 新 的 内 存 空间 来 容纳 新 的 
元 素 ， 并 将 其 与 已 有 的 其 他 内 存 空间 串 接 起 来 ， 从 而 避免 元 素描 贝 ; 在 删除 元 素 时 也 类 似 ， 
无 需 移动 元 素 。 所 以 当 元 素数 量 巨变 时 ， 它 的 性 能 比 list 要 好 上 许多 倍 。 


对 于 list 这 种 序列 容器 来 说 ， 除 了 pop(9) 和 insert(9，v) 这 种 插入 操作 非常 耗 时 之 外 ， 查 
找 一 元 素 是 否 在 其 中 ， 也 是 O(n) 的 线性 复杂 度 。 在 C 语言 中 ， 标 准 库 苑 数 bsearch() 能 够 
通过 二 分 查找 算法 在 有 序 队 列 中 快速 查找 是 否 存在 茶 一 元 素 。 在 Python 中 ， 对 保持 list 对 象 
有 序 以 及 在 有 序 队 列 中 查找 元 素 有 非常 好 的 支持 ， 这 是 通过 标准 库 bisect 来 实现 的 。 


bisect 并 没有 实现 一 种 新 的 “数据 结构 "， 其实 它 是 用 来 维护 “有 序列 表 " 的 一 组 函数 ， 可 以 兼 
容 所 有 能 够 随机 存 取 的 序列 容器 ， 比 如 list。 它 可 使 在 有 序列 表 中 查找 某 一 元 素 变 得 非常 简 
单 。 


defmindex(ar x0): 
i = bisect_ left(a, x) 
if i != len(a) and a[i] == x: 
return 1 
raise ValueError 


保持 列表 有 序 需要 付出 额外 的 维护 工作 ， 但 如 果 业 务 需 要 在 元 素 较 多 的 列表 中 频繁 查找 某 此 
元 素 是 否 存在 或 者 需要 频繁 地 有 序 访 问 这 些 元 素 ， 使 用 bisect 则 相当 值得 。 


对 于 序列 容器 ， 除 了 插入 、 删 除 、 查 找 之 外 ， 还 有 一 种 很 常见 的 需求 是 获取 其 中 的 极 大 值 或 
we ， 这 时 候 ， 可 以 使 用 heapq 模块 。 类 似 bisect，heapq 也 是 维护 列表 的 一 组 元 
其 中 heapify() 的 作用 是 把 一 个 序列 容器 转化 为 一 个 堆 。 


>>> import heapq 

>>> import random 

>>> alist = [random.randint(0, 100) for i in range(10)] 
>>> heapq.heapify(alist) 


可 以 看 到 ， 和 转化 为 堆 后 ，alist 的 第 一 个 元 素 alist[6] 是 整个 列表 中 最 小 的 元 素 ，heapq 将 
保证 这 一 点 ， 从 而 保证 从 列表 中 获取 最 小 值 元 素 的 时 间 复 杂 度 是 O(1) 


除了 通过 heapify() 函数 将 一 个 列表 转换 为 堆 之 外 ， 也 可 以 通过 heappush() 、 heappop() 
函数 插入 、 删 除 元 素 ， 针 对 常见 的 先 插 入 新 元 素 再 获取 最 小 元 素 、 先 获取 最 小 元 素 再 插入 新 
元 素 的 需求 ? 还 有 heappushpop(heap, item) 和 heapreplace(heap, item) 函数 可 以 快速 完 
成 。 另 外 可 以 看 出 ， 每 次 元 素 增 减 之 后 的 序列 变化 很 大 ， 所 以 千 万 不 要 乱用 heapq， 以 免 带 
来 性 能 问题 。 


另外 ，heapq 还 有 3 个 通用 函数 值得 介绍 ， 其 中 merge() 能 够 把 多 个 有 序列 表 归 并 为 一 个 有 
序列 表 (返回 迭代 器 ， 不 占用 内 存 ) ， 而 nlargest() 和 nsmallest() 类 似 于 C++ 中 的 
std::nth_element() ， 能 够 返回 无 序列 表 中 最 大 或 最 小 的 n 个 元 素 ， 并 且 性 能 比 
sorted(iterable, key=key)[:n] 要 高 BS 


余 了 对 容器 的 操作 可 能 会 出 现 性 能 问题 外 ， 容 器 中 存储 的 元 素 也 有 很 大 的 优化 空间 ， 在 很 多 
a ， 容器 存储 的 元 素 往往 是 同一 类 型 的 ， 比 如 都 是 整数 ， 此 时 就 可 以 用 array 优化 程序 性 


Zl 。 
月 已 。 


>>> import array 
>>> a = array.array("c"， "i am a string") # 'C' 表 示 存 储 的 每 个 元 素 都 相当 于 C 语言 中 的 char 类 
型 ， 占 用 内 存 大 小 为 工 字 节 


array 对 象 与 str 不 同 ， 它 是 可 变 对 象 ， 可 以 随意 修改 某 一 元 素 的 值 。 


从 容器 到 字符 串 的 转变 可 以 看 出 array 的 性 能 提升 是 比较 大 的 ， 但 也 不 能 认为 array 在 什么 方 
面 都 有 更 好 的 性 能 ， 比 如 使 用 reverse() 方法 时 。 所 以 性 能 优化 一 定 要 根据 profiler 的 剖析 
结果 来 进行 。 


建议 87 : 充分 利用 set 的 优势 
Python 中 集合 是 通过 Hash 算法 实现 的 无 序 不 重复 的 元 素 集 。 
集合 中 常见 的 操作 及 其 对 应 的 时 间 复 杂 度 如 下 : 


© s.union(t) 
o s 和 t+ 的 并 集 ， 平 均 时 间 复 杂 度 为 : o(len(s) + len(t)) 
© s.intersection(t) 
o Ss 和 +t 的 交集 ， 平 均 时 间 复 杂 度 为 : o(min(left(s) + len(t))) ， 最 差 为 : 0o(len(s) 
* len(t)) 
© s.difference(t) 
o Ss 和 + 的 差 集 ，s-t， 在 S 中 存在 但 在 t 中 不 存在 的 元 素 组 成 的 集合 ， 平 均 时 间 复 杂 度 
为 : 0(len(s)) 
@ S.Symmetric_ difference(t ) 
o SA^t，s 和 ft 的 并 集 减 去 S 和 ft 的 交集 ， 平 均 时 间 复 杂 度 : o(len(s)) ， 最 差 时 间 复 


杂 度 : 0o(len(s) * len(t)) 


基本 操作 的 复杂 度 基 本 为 O(n)， 最 差 的 情况 下 时 间 复 杂 度 才 为 O(n^2)。 从 测试 数据 中 可 以 看 
出 ， 实 际 上 set 的 union、intersection、difference 等 操作 要 上 比 list 的 近代 要 快 。 因 此 如 果 涉 
及 求 list 交集 、 并 集 或 者 差 等 问题 可 以 转换 为 set 来 操作 。 


建议 88 : 使 用 multiprocess 克服 GIL 的 缺陷 


GIL 的 存在 使 得 Python 中 的 多 线程 无 法 充分 利用 多 核 的 优势 来 提高 性 能 。 多 进程 
Multiprocess 是 Python 中 的 多 进程 管理 包 ， 在 Python2.6 版 本 中 引进 的 ， 主 要 用 来 帮助 处 
理 进 程 的 创建 以 及 它们 之 间 的 通信 和 相互 协调 。 它 主要 解决 了 两 个 问题 : 一 是 尽量 缩小 平台 
之 间 的 差异 ， 提 供 高 层次 的 API 从 而 使 得 使 用 者 忽略 底层 IPC 的 问题 ; 二 是 提供 对 复杂 对 象 
的 共享 支持 ， 支 持 本 地 和 远程 并 发 。 

类 Process 是 multiprocess 中 较为 重要 的 一 个 类 ， 用 户 创建 进程 ， 其 构造 函数 如 

下 Process([group[, target[, name[, args[, kwargs]]]]]) 

其 中 ， 参 数 target 表示 可 调用 对 象 ; args 表示 调用 对 象 的 位 置 参数 元 组 ; kwargs 表示 调用 对 
象 的 字典 ; name 为 进程 的 名 称 ; group 一 般 设 置 为 None。 该 类 提供 的 方法 与 属性 基本 上 与 
threading.Thread 一 致 ， 包 括 is_alive()、join([timeout])、run()、start()、terminate()、 


daemon (要 通过 start() 设置 ) 、exitcode、name、pid 等 。 


不 同 于 线程 ， 每 个 进程 都 有 其 独立 的 地 址 空间 ， 进 程 间 的 数据 空间 也 相互 独立 ， 因 此 进程 之 
间 数 据 的 共享 和 传递 不 如 线程 来 得 方便 。 庆 盏 的 是 multiprocess 模块 中 都 提供 了 相应 的 机 
制 : 如 进程 间 同 步 操作 原 语 Lock、Event、Condition、Semaphore， 传 统 的 管道 通信 机 制 
pipe 以 及 队列 Queue， 用 于 共享 资源 的 multiprocess.Value 和 multiprocess.Array 以 及 


Manager 等 
Multiprocessing 模块 在 使 用 上 需要 注意 以 下 几 个 要 点 : 


e 进程 之 间 的 的 通信 优先 考虑 Pipe 和 Queue ;而 不 是 Lock、Event、Condition、 
Semaphore 等 同步 原 语 。 进 程 中 的 类 Queue 使 用 pipe 和 一 些 locks、semaphores 原 语 
来 实现 ， 是 进程 安全 的 。 该 类 的 构造 函数 返回 一 个 进程 的 共享 队列 ， 其 支持 的 方法 和 线 
程 中 的 Queue 基本 类 似 ， 除 了 方法 task done() 和 join() 是 在 其 子 类 

JoinableQueue 中 实现 的 以 外 。 需 要 注意 的 是 ， 由 于 底层 使 用 pipe 来 实现 ， 使 用 Queue 
进行 进程 之 间 的 通信 的 时 候 ， 传 输 的 对 象 必须 是 可 以 序列 化 的 ， 否 则 put 操作 会 导致 
PicklingError。 此 外 ， 为 了 提供 put 方法 的 超时 控制 ，Queue 并 不 是 直接 将 对 象 写 到 管道 
中 而 是 先 写 到 一 个 本 地 的 缓存 中 ， 再 将 其 从 缓存 中 放 入 pipe 中 ， 内 部 有 个 专门 的 线程 
feeder 负责 这 项 工作 。 由 于 feeder 的 存在 ，Queue 还 提供 了 以 下 特殊 方法 来 处 理 进程 退 
出 时 缓存 中 仍然 存在 数据 的 问题 。 

o close() :表明 不 再 存放 数据 到 queue 中 。 一 旦 所 有 缓冲 的 数据 刷新 到 管道 ， 后 台 
线程 将 退出 。 

o join _thread() : 一 般 在 close 方法 之 后 使 用 ， 它 会 阻止 直到 后 台 线 程 退出 ， 确 保 所 
有 缓冲 区 中 的 数据 已 经 刷新 到 管道 中 。 

2 cancel join thread() : 需要 立即 退出 当前 进程 ， 而 无 需 等 待 排队 的 数据 刷新 到 底层 
管道 的 时 候 可 以 使 用 该 方法 ， 表 明 无 须 阻 止 到 后 台 进 程 的 退出 。 


Multiprocessing 中 还 有 个 SimpleQueue 队列 ， 它 是 实现 了 锁 机 制 的 pipe， 内 部 去 掉 了 
buffer， 但 没有 提供 put 和 get 的 超时 处 理 ， 两 个 动作 都 是 阻塞 的 。 


除了 multiprocessing.Queue 之 外 2 另 一 种 很 重要 的 通信 方式 是 multiprocessing.Pipe ° 它 
的 构造 函数 为 multiprocess.Pipe([duplex]) ， 其 中 duplex 默认 为 True， 表 示 为 双向 管道 
否则 为 单 向 。 它 返回 一 个 Connection 对 象 的 组 (conn1, conn2) ， 分 别 表示 管道 的 两 端 。 
Pipe 不 支持 进程 安全 ， 因 此 当 有 多 个 进程 同时 对 管道 的 一 端 进行 读 操作 或 者 写 操作 的 时 候 可 
能 会 导致 数据 丢失 或 者 损坏 。 因 此 在 进程 通信 的 时 候 ， 如 果 是 超过 2 个 以 上 的 线程 ， 可 以 使 
用 queue， 但 对 于 两 个 进程 之 间 的 通信 而 言 Pipe 性 能 更 快 。 


from multiprocessing import Process, Pipe, Queue 
import time 


def reader pipe(p1ipey): 
output_p, input_p = pipe # 返回 管道 的 两 端 
inout_p.close() 
whate MUes 
elma 
msg = output_p.recv() Fe DL 


[qo) 


exCeptaEOEEISOI 和 : 
break 


def writer_pipe(count, input_p): # 写 消息 到 管道 中 
for i in range(0, count): 
input_p.send(i) # 发 送 消息 


def reader_queue(queue): # 利用 队列 来 发 送 消息 
whatearue: 
msg = queue.get() # 从 队列 中 获取 元 素 
If msg == "DONE": 
break 


def writer_queue(count, queue): 
for ii in range(0, count): 
queue .put (ii) # 放 入 消息 队列 中 
queue.put("DONE") 


a name == nan 





print("testing for pipe:") 
Tomceounte umnitLion 3 0 4 100 Sk 
output_p, input_p = Pipe() 
reader_p = Process(target=reader_ pipe, args=((output_p, input_p),)) 
reader_p.start() # 启动 进程 
output_p.close() 
_Start = time.time() 
writer_pipe(count, input_p) # 写 消息 到 管道 中 
input_p.close() 





reader_p.join() # 等 
print("Sending {} numbers to Pipe() took {} seconds" ,format(count， (time.time( 
) - _start))) 


primt( testsing fiorraqueues) 

for count ZNO 3 T1004 0 8 
queue = Queue() # 利用 queue 进行 通信 
reader_p = Process(target=reader_queue, args=((queue), )) 
reader_p.daemon = True 
reader_p.start() 


_Start = time.time() 

writer_queue(count, queue) # 写 消息 到 queue 中 

reader_p.join() 

print("Seding {} numbers to Queue() took {} seconds" ,format(count， (time.time( 
) - _start))) 


从 函数 输出 可 以 看 出 ，pipe 所 消耗 的 时 间 较 小 ， 性 能 更 好 。 


。 尽量 避免 资源 共享 。 相 比 于 线程 ， 进 程 之 间 资 源 共 享 的 开销 较 大 ， 因 此 要 尽量 避免 资源 
共享 。 但 如 果 不 可 避免 ， 可 以 通过 multiprocessing.Value 和 multiprocessing.Array 或 


者 multiprocessing.sharedctpyes 来 实现 内 存 共享 ， 也 可 以 通过 服务 器 进程 管理 器 
Manager() 来 实现 数据 和 状态 的 共享 。 这 两 种 方式 各 有 优势 ， 总 体 来 说 共享 内 存 的 方式 更 


快 ， 效 率 更 高 ， 但 服务 器 进程 管理 器 Manager() 使 用 起 来 更 为 方便 ， 并 且 支 持 本 地 和 远 
程 内 存 共享 。 


使 用 Value 进行 内 存 共 享 


Import time 
from multiprocessing import Process, Value 


def func(val): # 多 个 进程 同时 修改 val 
for i in range(10): 
time.sleep(0.1) 
val.value += 1 


ny name ==0 Malnee 





} 总 央 


v = Value("i", 0) # 使 用 value 来 共享 内 存 
processList = [Process(target=func, args=(v,)) for i in range(10)] 
for p in processList: 
p.start() 
for p in processList: 
p.join() 
print v.value 


Python 官方 文档 中 有 个 容易 让 人 迷惑 的 描述 : 在 Value 的 构造 函数 
multiprocessing.Value(typecode_ or_type, *args[, lock]) 中 ， 如 果 lock 的 值 为 True 会 创 
建 一 个 锁 对 象 用 于 同步 访问 控制 ， 该 值 默 认为 True。 因 此 很 多 人 会 以 为 Value 是 进程 安全 
的 ， 实 际 上 申 正 要 控制 同步 访问 ， 需 要 实现 获取 这 个 锁 : 


def func(val): 
for i in range(10): 
time.sleep(0.1) 
with val.get_lock(): # 仍然 需要 使 用 get_lock 方法 来 获取 锁 对 象 
val.value += 1 


艺 
ny 
六 
机 


使 用 Manager 进 和 


Import multiprocessing 

def f(ns): 
ns.x.append(1) 
ns.y.append("a") 


fh name == man 





manager = multiprocessing.Manager() 
ns = manager ,Namespace() 
msiex = # manager 内 部 包括 可 变 对 蔓 


[] 


ns.y 


print("before process operation: {}".format(ns)) 

p = multiprocessing.Process(target=f, args=(ns, )) 

p.start() 

p.join() 

print("after process operation {}".format(ns)) # 修改 根本 不 会 生效 


manager 对 象 仅 能 传播 对 一 个 可 变 对 象 本 身 所 做 的 修改 ， 如 有 一 个 manager.list() 对 象 ， 
管理 列表 本 身 的 任何 更 改 会 传播 到 所 有 其 他 进程 。 但 是 ， 如 果 容 器 对 象 内 部 还 包括 可 修改 的 
对 象 ， 则 内 部 可 修改 对 象 的 任何 更 改 都 不 会 传播 到 其 他 进程 ， 因 此 ， 正 确 的 处 理 方式 : 


Import multiprocessing 

de 人 (SEX VE 
x.append(1) 
y.append("a") 


ns3xX = # 将 可 变 对 象 也 作为 参数 传 入 
ns.y = y 
a name = malne 





manager = multiprocessing.Manager() 

ns = manager.Namespace() 

ms = # manager 内 部 包括 可 变 对 象 

ns.y = [] 

print("before process operation: {}".format(ns)) 

p = multiprocessing.Process(target=f, args=(ns, ns.x, ns.y)) 
p.start() 


p.join() 
print("after process operation {}".format(ns)) 


e 注意 平台 之 间 的 差异 。 由 于 Linux 平台 使 用 fork() 来 创建 进程 ， po dh 
资源 ， 如 数据 结构 、 打 开 的 文件 或 者 数据 库 的 连接 都 会 在 子 进程 中 共享 ， 而 Windows 平 
台中 父子 a 
作为 子 进程 的 构造 函数 的 参数 传递 进去 。 要 避免 如 下 方式 : 


进 
进 


f = None 
defrehzud(f 
# do something 


3 name = 二 NA 





f = open(filename, mode) 
p = Process(target=child) 
p.start() 
p.join() 


而 推荐 使 用 如 下 方式 : 


def child(f): 
print(f) 


yl name = nanmne 





f = open(filename, mode) 

p = Process(target=child, args=(f, )) # 将 资源 对 象 作为 构造 函数 参数 传 入 
p.start() 

p.join() 


需要 注意 的 是 ，Linux 平台 上 multiprocessing 的 实现 是 基于 C 库 中 的 fork()， 所 有 子 进程 与 
父 进 程 的 数据 是 完全 相同 ， 因 此 父 进 程 中 所 有 的 资源 ， 如 数据 结构 、 打 开 的 文件 或 者 数据 库 
的 连接 都 会 在 子 进程 中 共享 。 但 Windows 平台 上 由 于 没有 fork() 函数 ， 父 子 进程 相对 独 
立 ， 因 此 保持 了 平台 的 兼容 性 ， 最 好 在 脚本 中 加 上 if name -= main " 的 判断 ， 这 样 
可 以 避免 出 现 RuntimeError 或 者 死 锁 。 





。 尽量 避免 使 用 terminate() 方式 终止 进程 ， 并 且 确 保 pool.map 中 传 入 的 参数 是 可 以 序 
列 化 的 。 


解决 序列 化 问题 ， 一 个 可 行 的 正确 做 法 如 下 : 


Import multiprocessing 
defuunwrapuselff(args **“kKkwargs): 
return calculate.f(*args, **kwargs) es] 双关 


class calculate(object): 
def 让 (Self XxX) 
netusn Xx x 
def "run(self 六 
p = multiprocessing.Pool() 
return p.map(unwrap_self_f, zip([self] * 3，[1，2，3])) 


a name = Nene 





c1 = calculate() 
print(ci1.run()) 


建议 89 : 使 用 线程 池 提高 效率 


我 们 知道 线程 的 生命 周期 分 为 5 个 状态 : 创建、 就绪、 运行、 阻塞 和 终止 。 自 线程 创建 到 终 

a 销毁 。 而 丨 正 占有 CPU 的 只 有 
运行 、 创 建 和 销毁 这 3 个 状态 。 一 个 线程 的 运行 时 间 由 此 可 以 分 为 3 部 分 : 线程 的 启动 时 间 
(Ts) 、 线 程 体 的 运行 时 间 (Tr) 以 及 线程 的 销毁 时 间 (Td) 。 在 多 线程 处 理 的 情境 中 ， 如 
果 线 程 不 能 够 被 重用 ， 就 意味 着 每 次 创建 都 需要 经 过 启动 、 销 毁 和 运行 这 3 个 过 程 。 这 必然 
会 增加 系统 的 相应 时 间 ， 降 低 效 率 。 而 线程 体 的 运行 时 间 Tr 不 可 控制 ， 在 这 种 情况 下 要 提高 
线程 运行 的 效率 ， 线 程 池 便 是 一 个 解决 方案 。 


线程 池 通 过 实现 创建 多 个 能 够 执行 任务 的 线程 放 入 池 中 ， 所 要 执行 的 任务 通常 被 安排 在 队列 
中 。 通 常情 况 下 ， 需 要 处 理 的 任务 比 线程 的 数目 要 多 ， 线 程 执行 完 当 前 任务 后 ， 会 从 队列 中 
取 下 一 个 任务 ， 直 到 所 有 的 任务 已 经 完 


由 于 线程 预先 被 创建 并 放 入 线程 池 中 ， 同 时 处 理 完 当 前 任务 之 后 并 不 销毁 而 是 被 安排 处 理 下 
一 个 任务 ， 因 此 能 够 避免 多 次 创建 线程 ， 从 而 节省 线程 创建 和 销毁 的 开销 ， 带 来 更 好 的 性 能 
和 系统 稳定 性 。 线 程 池 技术 适合 os 本 
实际 处 理 时 间 较 短 的 应 用 场景 ， 它 能 避免 由 于 系统 中 创建 线程 过 多 而 导致 的 系统 

载 过 大 、 响 应 过 慢 等 问题 。 


Python 中 利用 线程 池 有 两 种 解决 方案 : 一 是 自己 实现 线程 池 模 式 ， 二 是 使 用 线程 池 模块 。 
一 个 线程 池 模 式 的 简单 实现 


Import Queue, sys, threading 
import urllib2, os 


# 处 理 request 的 工作 线程 
class Worker(threading.Thread): 
def iNnit “(self, workQueue, resultQueue, **kwargs): 
threading.Thread. init (self, **kwargs) 
self.setDaemon(True) 
self .workQueue = workQueue 
self.resultQueue = resultQueue 


qefmun(sern 
wie ir ue 
Ey 
callable, args, kwargs = self.workQueue.get(False) FN 个 


res = callable(*args, **kwargs) 

self.resultQueue.put(res) # 和 存放 处 理 结 果 到 队列 中 
except Queue.Empty: 

break 


class WorkManager: # 线程 池 管 理 器 


def init (self, num of workers=10): 


self .workQueue = Queue.Queue() # 请 求 队列 
self.resultQueue = Queue.Queue() # 输出 结果 的 队列 
self.workers = [] 
self._recruitThreads(num_of_workers) 


def _recruitThreads(self, num of workers): 
for i in range(num_ of_workers): 


worker = Worker(self.workQueue, self.resultQueue) # 创建 工作 线程 
self .workers.append(worker) # 加 入 线程 队列 中 
qefmestars(serdi)e # 启动 线程 
for w in self.workers: 
w.start() 


def wanteforicom lete(seLt): 
while len(self.workers): 
worker = self.workers.pop() # 从 池 中 取出 一 个 线程 处 理 请 求 
worker .join() 
If worker.isAlive() and not self.workQueue.empty(): 
self .workers.append(worker) # 重新 加 入 线程 池 中 
print("All jobs were completed") 


def addsjobkself callable, “args, “kwargs).: 
self .workQueue.put((callable, args, kwargs)) # 在 工作 队列 中 加 入 青 堪 


detroet result(Selfr “arygs kwangsys # 获取 处 理 结果 
return self.resultQueue.get(*args, **kwargs) 


def download file(url): 
print("begin download {}".format(url)) 
urlhandler = urllib2.urlopen(url1) 
fname = os.path.basename(url) + ".html" 
with open(fname, "wb") as f: 
Whoamenruei 
chunk = urlhandler.read(1024) 
if not chunk: 
break 
f.write(chunk) 


urls = ["http://wiki.python.org/moni/WebProgramming", 
"mnttpSs AA Cnreatespacerncom/A6 Lon 
"http://wiki.python.org/moin/Documention"] 
wm = WorkerManager(2) # 创建 线程 池 
om inurlsy 
wm.add_job(download_file, i) # 将 所 有 请 求 加 入 队列 中 
wm.start() 
wm.wait_for_complete() 


自行 实现 线程 池 ， 需 要 定义 一 个 Worker 处 理工 作 请 求 ， 定 义 WorkerManager 来 进行 线程 池 
的 管理 和 创建 ， 它 包含 一 个 工作 请 求 队列 和 执行 结果 队列 ， 有 具体 的 下 载 工 作 通过 
down1load file() 方法 来 实现 。 


相 比 自己 实现 的 线程 池 模型 ， 使 用 现成 的 线程 池 模 块 往往 更 简单 。Python 中 线程 池 模块 的 下 
载 地 址 为 : https://pypi.python.org/pypi/threadpool 。 该 模块 提供 了 以 下 基本 类 和 方法 : 


e threadpoo1.ThreadPool : 线程 池 关 ， 主 要 的 作用 是 用 来 分 派 任务 请 求 和 收集 运行 结果 。 
主要 有 以 下 方法 : 
2 _ init (self, num workers, q_size=0, resq_size=0, poll timeout=5) : 建立 线程 
池 ， 并 启动 对 应 num workers 的 线程 ; q_size 表示 任务 请 求 队列 的 大 
小 ， resq_size 表示 存放 运行 结果 队列 的 大 小 。 
© createworkers(self, num workers, poll timeout=5) : 将 num_workers 数量 对 应 的 线 
程 加 入 线程 池 中 。 
o dismissworkers(self, num workers, do_join=False) : 告诉 num_workers 数量 的 工作 
线程 当 执 行 完 当前 任务 后 退出 
© joinAllDismissedworkers(self) : 在 设置 为 退出 的 线程 上 执行 Thread ,join 
2 putRequest(self, request, block=True, timeout=None) : 将 工作 请 求 放 入 队列 中 
o poll(self，block=False) : 处 理 任务 队列 中 新 的 请 求 
o wait(self) : 阻塞 用 于 等 待 所 有 执行 结果 。 注 意 当 所 有 执行 结果 返回 后 ， 线 程 池内 
部 的 线程 并 没有 销毁 ， 而 是 在 等 待 新 的 任务 。 因 此 ， wait() 之 后 仍然 可 以 再 次 调用 
pool.putRequests() 往 其 中 添加 任务 
© threadpool.WworkRequest : 包含 有 具体 执行 方法 的 工作 请 求 类 
e threadpool.WorkerThread : 处 理 任务 的 工作 线程 ， 主 要 有 run() 方法 以 及 dismiss() 
方法 。 
© makeRequests(callable , args_list, callback=None, 
exec_callback=_handle_thread_ exception) : 主要 函数 ， 作用 是 创建 具有 相 同 的 执行 函数 
但 参数 不 同 的 一 系列 工作 请 求 。 





用 线 程 池 实 2 现 , 的 例子 


import urllib2 
import os 

import time 
import threadpool 


def download_ file(url): 
print("begin download {}".format(url )) 
urlhandler = urllib2.urlopen(url) 
fname = os.path.basename(url) + ".html" 
with open(fname, "wb") as f: 
whoulen Trues: 
chunk = urlhandler.read(1024) 
If not chunk: 
break 
f,write(chunk ) 


urls = ["http://wiki.python.org/moni/WebProgramming", 
"https://www.createspace.com/3611970", 
"http://wiki.python.org/moin/Documention"] 

pool_size = 2 

pool = threadpool.ThreadPool(pool size) # 创建 线程 池 ， 大 小 为 2 

requests = threadpool.makrRequests(download_file, urls) # 创建 工作 请 求 

[pool.putRequest(req) for req in requests] 


print("putting request to pool") 

pool.putRequest(threadpool. WO So Oa file, args=["http://chrisarndt.de/proj 
ects/threadpool/api/", |])) # 将 具体 的 请 求 放 入 线程 池 

pool.putRequest(threadpool .WorkRequest(download_ file, args=["https://pypi.python.org/p 
yp/threadpool, ,|)) 

pool.poll() # 处 理 任 务 队列 中 的 新 的 请 求 

pool.wait() 

print("destory all threads before exist") 

pool.dismissWorkers(pool_ size, do_join=True) # 完成 后 退出 


建议 90 : 使 用 C/C++ 模块 扩展 高 性 能 


Python 具有 良好 的 可 扩展 性 ， 利 用 Python 提供 的 APl， 如 宏 、 类 型 、 函 数 等 ， 可 以 让 
Python 方便 地 进行 C/C++ 扩展， 从 而 获得 较 优 的 执行 性 能 。 所 有 这 些 API 却 包含 在 
Python.h 的 头 文 件 中 ， 在 编写 C 代码 的 时 候 引 入 该 头 文件 即 可 。 


e。 先 用 C 实现 相关 函数 ， 也 可 以 直接 使 用 C 语言 实现 相关 函数 功能 后 再 使 用 Python 进行 


#include "Python.h" 
static PyObject “prarsprime(PyOobject, “self,. PyObject args 三 
int n, num; 
if (!PyArg_ParseTuple(args, "i", &num)) // 解析 参数 
return NU 
if (num < 1) { 
return Py_BuildValue("i", 0); // C 类 型 的 数据 结 
} 
n= num - 1; 
while (n > 1) { 
if (num % n == 0) { 
return Py_BuildValue("i", 0); 
Nn--, 





换 成 Python 对 象 


return Py_BuildValue("i", 1); 


static PyMethodDef PrMethods[] = { 
{"isPprime", pr_isprime, METH_VARARGS, "check if an input number Is prime or not."}, 
NUEB ONUES ONUEDY 


}; 


void initpr(void) { 
(void) Py_InitModule("pr", PrMethods); 


上 面 的 代码 包含 以 下 3 部 分 : 


e 导出 函数 : C 模块 对 外 暴露 的 接口 函数 pr_isprime ， 带 有 self 和 args 两 个 参数 ， 其 中 
参数 args 中 包含 了 Python 解释 器 要 传递 给 C 函数 的 所 有 参数 ， 通 常 使 用 函数 
PyArg_ParseTuple() 来 获得 这 些 参 数值 

。 初始 化 函数 : 以 便 Python 解释 器 能 够 对 模块 进行 正确 的 初始 化 ， 初 始 化 时 要 以 init 开 
头 ， 如 initp 

e 方法 列表 : 提供 给 外 部 的 Python 程序 使 用 的 一 个 C 模块 函数 名 称 映射 表 PrMethods 。 
它 是 一 个 PyMethodDef 结构 体 ， 其 中 成 员 依次 表示 方法 名 、 导 出 函数 、 参 数 传递 方式 和 
方法 描述 。 


struct PyMethodDef { 
char * m1i_name; 
PyCFunction m1i_meth; 
int mi_flags; 





char * m1_doc; 


参数 传递 方法 一 般 设 置 为 METH VARARGS ， 如 果 想 传 入 关键 字 参 数 ， 则 可 以 将 其 与 
METH_KEYWORDS 进行 或 运算 。 若 不 想 接 受 任何 参数 ， 则 可 以 将 其 设置 为 METH_NOARGS 。 该 结 
构 体 必须 与 {fNULL，NULL，6，NULL} 所 表示 的 一 条 空 记录 来 结尾 。 


e 编写 Setup .py 脚本 


from distutils.core import setup, Extension 
module = Extension("pr", sources=["testextend.c"]) 
setup(name="Pr test", version="1.0", ext_ modules=[module]) 


e 使 用 python setup.py build 进行 编译 ， 系 统 会 在 当前 目录 下 生成 一 个 build 子 目 录 ， 
里 面包 含 pr.so 和 pr.o 文件 。 

e 将 生成 的 文件 py.So 复制 到 Python 的 Site_packages 目录 下 ， 或 者 将 pr.so 所 在 目 
录 的 路 径 添 加 到 sys.path 中 ， 就 可 以 使 用 C 扩展 的 模块 了 。 


更 多 关于 C 模块 扩展 的 内 容 可 以 参考 


建议 91 : 使 用 Cython 编写 扩展 模块 


Python-API 让 大 家 可 以 方便 地 使 用 cyc+r+ 编写 扩展 模块 ， 从 而 通过 重 写 应 用 中 的 瓶颈 代码 
获得 性 能 提升 。 但 是 ， 这 种 方式 仍然 有 几 个 问题 : 


e。 掌握 C/C++ 编程 语言 、 工 具 链 有 巨大 的 学 习 成 本 
e 即便 是 C/C++ 熟 手 ， 重 写 代码 也 有 非常 多 的 工作 ， 比 如 编写 特定 数据 结构 、 算 法 的 
C/C++ 版 本 ， 费 时 费力 还 容易 出 错 


所 以 整个 Python 社区 都 在 努力 实现 一 个 "编译 器 “， 它 可 以 把 Python 代码 直接 编译 成 等 价 的 
C/C++ 代码 ， 从 而 获得 性 能 提升 。 这 类 工具 有 pyrex、Py2C 和 Cython 等 。 而 从 Pyrex 发 展 而 
来 的 Cython 是 其 中 的 集大成 者 。 


Cython 通过 给 Python 代码 增加 类 型 声明 和 直接 调用 C 函数 ， 使 得 从 Python 代码 中 转换 的 

C 代码 能 够 有 非常 高 的 执行 效率 。 它 的 优势 在 于 它 几 乎 支持 全 部 Python 特性 ， 也 就 是 说 ， 基 
本 上 所 有 的 Python 代码 都 是 有 效 的 Cython 代码 ， 这 使 得 将 Cython 技术 引入 项 目的 成 本 降 
到 最 低 。 除 此 之 外 ，Cython 支持 使 用 decorator 语法 声明 类 型 ， 甚 至 支持 专门 的 类 型 声明 文 
件 ， 以 使 原 有 的 Python 代码 能 够 继续 保持 独立 ， 这 些 特性 都 使 得 它 得 到 广泛 应 用 ， 比 如 
PyAMF、PyYAML 等 库 都 使 用 它 编 写 自 己 的 高 效率 版 本 。 


安装 Cython : pip install -U cython 


直接 拿 一 个 arithmetic.py 尝试 一 下 ， 执行 命令 cython arithmetic.py ， 会 生成 一 个 
arithmetic.c 文件 ， 而 且 包 含 了 巨 量 难以 看 懂 的 代码 ， 不 过 机 器 生成 的 代码 本 来 就 不 是 为 了 
给 人 看 的 ， 所 以 还 是 交 给 编译 器 吧 : 


gcc -Shared -pthread -fPIC -fwrapv -02 -Wall -fno-strict-aliasing -I 
/usr/include/python2.7 -0 arithmetic.so arithmetic.c 


等 待 编译 、 链 接 工 作 完 成 后 ， arithmethic.so 文件 就 生成 了 。 这 时 候 可 以 像 import 普通 的 
Python 模块 一 样 使 用 它 。 


每 一 次 都 需要 编译 、 等 待 有 点 麻烦 ， 所 以 Cython 很 体贴 地 提供 了 无 需 显 式 编译 的 方案 : 
pyximport。 只 要 将 原 有 的 Python 代码 后 缓 名 从 .py 改 为 .pyx 即 可 : 


>>> Import pyximport 
>>> pyximport.install() 
>>> import arithmetic 


从 _file 属性 可 以 看 出 ， 这 个 .pyx 文件 已 经 被 编译 链接 为 共享 库 了 ，pyximport 的 确 方 
便 。 


接 下 来 学 习 如 何 通过 Cython 把 原 有 代码 的 性 能 进行 提升 ， 比 如 在 GIS 中 ， 经 常 需要 计算 地 
球 表面 上 两 点 之 间 的 距离 : 


Import math 
defgceatecmeceondl at LOn2 Tat2): 

radius = 3956 # miles 

x = math.pi / 180.0 

a= (90.0 - lat1) * (x) 

b = (90.0 - lat2) * (x) 

theta = (lon2 - lon1) * (x) 

c= math.acos(math.cos(a) * math.cos(b)) + (math.sin(a) * math.sin(b) * math.cos(t 
heta)) 

return radius * C 


先 使 用 Cython 的 类 型 声明 进行 修改 : 


import math 
def greatucrrcele(tloat Tonlr floac at flioat lon2 floac Lat2): 
cdef float radius = 3956.0 
cdef float pi = 3.14159265 
cdef float x = pi / 180.0 
cdef float a, b, theta, c 
a= (90.0 - lat1) * (x) 
b = (90.0 - lat2) * (x) 
theta = (lon2 - lon1) * (x) 
c= math.acos(math.cos(a) * math.cos(b)) + (math.sin(a) * math.sin(b) * math.cos(t 
heta)) 
return radius * c 


通过 给 great_circle 函数 的 参数 、 中 间 变 量 增加 类 型 声明 ，Cython 代码 业务 逻辑 代码 一 行 
没 改 。 使 用 timeit 库 可 以 测定 提速 将 近 2 成。 还 有 一 个 性 能 瓶颈 ， 就 是 调用 的 math 库 是 一 
个 Python 库 ， 性 能 较 差 ， 于 是 这 里 可 以 直接 调用 C 函数 来 解决 : 


cdef extern from "math.h": 
float cosf(float theta) 
float sinf(float theta) 
float acosf(float theta) 


dejgreateaenrele(float Jonl floae latl floatl lon2Z fioatr lat2)e 
cdef float radius = 3956.0 
cdef float pi = 3.14159265 
cdef float x = pi / 180.0 
cdef float a, b, theta, c 
a= (90.0 - lat1) * (x) 
b = (90.0 - lat2) * (x) 
theta = (lon2 - lon1) * (x) 
c = acosf((cosf(a) * cosf(b)) + (sinf(a) * sinf(b) * cosf(theta))) 
return radius * C 


Cython 使 用 cdef extern from 语法 ， 将 math.h 这 个 C 语言 库 头 文件 里 声明 的 
cofs 、 sinf 、 acosf 等 函数 导入 代码 中 。 因 为 减少 了 Python 函数 调用 和 调用 时 产生 的 类 
型 转换 开销 ， 使 用 timeit 测试 这 个 版 本 的 代码 性 能 提升 了 5 倍 至 少 。 


比 起 直接 使 用 C/C++ 编写 扩展 模块 ， 使 用 Cython 的 方法 方便 得 多 。 


除了 使 用 Cython 编写 扩展 模块 提升 性 能 之 外 ，Cython 也 可 以 用 来 把 之 前 编写 的 C/C++ 
代码 封装 成 .so 模块 给 Python 调用 (类似 boost.python/SWIG 的 功能 ) ，Cython 社区 
已 经 开发 了 许多 自动 化 工具 。 


